用C++11手写轻量级JSON解析器需采用递归下降法,为value、object、array等非终结符实现对应函数,配合JsonValue联合体结构和位置指针pos遍历字符串,正确处理转义、数字解析、空白跳过及错误定位。

用C++手写一个轻量级JSON解析器,核心是递归下降(Recursive Descent)——它天然契合JSON的嵌套结构(对象、数组可无限嵌套),逻辑清晰、易于理解和调试。不需要第三方库,纯标准C++11即可实现基础功能(字符串、数字、布尔、null、对象、数组)。
理解JSON语法与递归下降映射关系
JSON文本本质是上下文无关文法(CFG),递归下降就是为每个非终结符(如 value、object、array)写一个对应函数,函数内部按语法规则“向下”调用其他函数,形成自然的递归调用链。
关键文法规则(简化版):
- value → string | number | object | array | true | false | null
- object → { [ member ( , member )* ] }
- member → string : value
- array → [ [ value ( , value )* ] ]
每个规则直接对应一个解析函数,比如 parse_value() 调用 parse_object() 或 parse_array(),后者再递归调用 parse_value() —— 这就是“下降”和“递归”的由来。
立即学习“C++免费学习笔记(深入)”;
设计核心数据结构:JsonValue
先定义一个能容纳所有JSON类型的联合体式容器(用 std::variant 或手动管理):
struct JsonValue {
enum Type { STRING, NUMBER, OBJECT, ARRAY, BOOL, NULL_T };
Type type;
std::string str; // for STRING
double num; // for NUMBER
bool boolean; // for BOOL
std::map obj; // for OBJECT
std::vector arr; // for ARRAY
}; 注意:NULL_T 可用特殊标记(如 num = NAN)或额外 bool is_null 字段;实际项目中推荐用 std::optional 或 std::variant<:monostate ...> 更安全。
实现解析器骨架与关键函数
维护一个位置指针 pos 遍历输入字符串,跳过空白,按首字符分发:
- 遇到 " → 调用
parse_string()(需处理转义,如\"、\\、\n) - 遇到 { → 调用
parse_object()(读 {,循环解析"key": value,直到 }) - 遇到 [ → 调用
parse_array()(读 [,循环解析value,直到 ]) - 遇到 t / f / n → 分别识别
true、false、null - 遇到数字或负号 → 调用
parse_number()(支持整数、小数、科学计数法,可用std::stod或手动解析)
所有函数都接受并更新引用参数 size_t& pos,失败时抛异常或返回 std::nullopt(建议用异常,便于定位错误位置)。
实战要点与易错提醒
递归下降不是“写完就跑”,几个关键细节决定成败:
-
跳空白必须统一:写一个
skip_whitespace(const std::string& s, size_t& pos),所有解析函数开头必调用 -
字符串解析要小心:逐字符读,遇 " 结束;中间遇 \ 就取下一个字符,按规则转义(
\\→\,\"→",\n→换行符等) -
数字解析别依赖 atof:它不检查非法尾部(如
"123abc"会成功解析为123),应手动扫描合法数字字符后截取子串再转换 -
错误提示要带位置:抛异常时附上
pos,比如throw std::runtime_error("Expected ',' or '}' at " + std::to_string(pos)); - 避免深递归爆栈:JSON嵌套过深(>1000层)可能栈溢出,生产环境需加深度限制(传入 max_depth 参数)
基本上就这些。写完后用典型用例测试:{"name":"Alice","scores":[95,87],"active":true}、空对象 {}、嵌套 {"a":{"b":[1,2]}}、非法输入(缺引号、逗号错位)看是否报错准确。不复杂但容易忽略边界,多测几遍就稳了。










