0

0

C++如何进行超大JSON文件的流式解析?(SAX风格避免全载入)

穿越時空

穿越時空

发布时间:2026-02-25 11:13:04

|

881人浏览过

|

来源于php中文网

原创

真正可行的流式解析方案只有换库(如rapidjson的sax模式)或手写状态机;rapidjson reader配合分块读取与自定义handler可实现内存恒定的真流式解析。

c++如何进行超大json文件的流式解析?(sax风格避免全载入)

jsoncppJson::CharReader 做流式解析行不通

因为 Json::CharReader 本质仍是读完整字符串再解析,底层依赖 std::string 缓存,遇到 GB 级 JSON 直接 OOM。它不是 SAX,只是“伪流式”——你传进去的 const char* 还是得提前全加载好。

真正可行的路径只有两条:换库,或手写状态机。生产环境几乎都选前者。

  • jsoncpprapidjson 的 DOM 模式(如 Document::Parse)全量加载,禁用
  • rapidjson 的 SAX 模式(Reader + Handler)是目前 C++ 里最稳的流式方案
  • nlohmann/json 不支持 SAX,只提供 json_sax_dom_callback_parser 这种半吊子回调,无法真正流式处理超大文件

rapidjsonReader 实现真 SAX 解析

核心是继承 BaseReaderHandler,重写 StartObject()Key()String() 等钩子函数,在数据到达时立刻消费,不保留中间结构。

关键实操点:

立即学习C++免费学习笔记(深入)”;

超级简历WonderCV
超级简历WonderCV

免费求职简历模版下载制作,应届生职场人必备简历制作神器

下载
  • 别用 FILE* 直接喂给 Reader;先用 fread 分块读取到固定大小缓冲区(如 64KB),再调用 Reader::Parse,并检查返回值是否为 kParseErrorNone
  • String() 回调里拿到的是 const char* + length,不是 null-terminated 字符串;若需转 std::string,必须显式构造:std::string(s, length)
  • 嵌套层级深时,靠 depth_ 成员变量(需自己维护)判断当前路径;rapidjson 不自动维护上下文,容易把数组里的字段错当成根对象字段
// 示例:只提取所有 "url" 字段值
class UrlHandler : public rapidjson::BaseReaderHandler<rapidjson::UTF8<>, rapidjson::UTF8<>> {
  int depth_ = 0;
  bool in_url_field_ = false;
public:
  bool Key(const char* str, rapidjson::SizeType len, bool copy) override {
    if (len == 3 && memcmp(str, "url", 3) == 0 && depth_ == 1) {
      in_url_field_ = true;
    }
    return true;
  }
  bool String(const char* str, rapidjson::SizeType len, bool copy) override {
    if (in_url_field_) {
      printf("found url: %.*s\n", (int)len, str);
      in_url_field_ = false;
    }
    return true;
  }
  // ... 其他必需重载函数(StartObject/EndObject 等)
};

分块读取时最容易崩的三个地方

流式 ≠ 随便切。JSON 是结构化文本,跨字符、跨转义、跨 UTF-8 多字节边界切,rapidjson 会直接报 kParseErrorInvalidUTF8 或静默跳过数据。

  • 缓冲区末尾不能停在 UTF-8 多字节字符中间:读完一块后,检查最后一个字节是否属于 0xC0–0xF7(多字节起始),若是,回退到上一个合法字符边界再切
  • 不能在字符串内部断开:如果上一块结尾是 "http://exa(引号未闭),下一块开头是 mple.com"rapidjson 会认为这是两个独立字符串,丢失语义
  • 换行和空白不影响解析,但块内必须保证 JSON 结构完整——也就是说,块边界只能出现在顶层对象/数组的逗号之后、或键值对之间的空白处;实际做法是:每次读取后,用简易状态机扫描缓冲区末尾,找到最近的合法断点(如匹配的 }] 后的逗号或换行)

为什么不用 simdjson?它不是更快吗?

快,但不解决流式问题。simdjsonondemand API 仍要求一次性映射整个文件(mmap),且对 >2GB 文件在 32 位系统或某些容器环境会失败;它优化的是单次解析速度,不是内存驻留量。

如果你的场景是“边下载边解析”,或者文件来自管道(stdin)、网络 socket,simdjson 就完全不可用——它不接受增量输入流。

真正要流式,就得接受“解析速度稍慢但内存恒定”的 trade-off。这时候 rapidjson::Reader 是目前最成熟、文档最清晰、错误提示最准的选择。

注意:所有回调函数里禁止做耗时操作(比如写磁盘、发 HTTP 请求),否则会卡住解析器;数据要攒一批再批量处理,别在 String() 里逐条 insert 到数据库。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

智谱清言 - 免费全能的AI助手
智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

448

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

544

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

323

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

81

2025.09.10

string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

850

2023.08.02

c语言中null和NULL的区别
c语言中null和NULL的区别

c语言中null和NULL的区别是:null是C语言中的一个宏定义,通常用来表示一个空指针,可以用于初始化指针变量,或者在条件语句中判断指针是否为空;NULL是C语言中的一个预定义常量,通常用来表示一个空值,用于表示一个空的指针、空的指针数组或者空的结构体指针。

246

2023.09.22

java中null的用法
java中null的用法

在Java中,null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量,包括类、接口、数组、字符串等。想了解更多null的相关内容,可以阅读本专题下面的文章。

886

2024.03.01

c语言const用法
c语言const用法

const是关键字,可以用于声明常量、函数参数中的const修饰符、const修饰函数返回值、const修饰指针。详细介绍:1、声明常量,const关键字可用于声明常量,常量的值在程序运行期间不可修改,常量可以是基本数据类型,如整数、浮点数、字符等,也可是自定义的数据类型;2、函数参数中的const修饰符,const关键字可用于函数的参数中,表示该参数在函数内部不可修改等等。

552

2023.09.20

batoto漫画官网入口与网页版访问指南
batoto漫画官网入口与网页版访问指南

本专题系统整理batoto漫画官方网站最新可用入口,涵盖最新官网地址、网页版登录页面及防走失访问方式说明,帮助用户快速找到batoto漫画官方平台,稳定在线阅读各类漫画内容。

19

2026.02.25

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
WEB前端教程【HTML5+CSS3+JS】
WEB前端教程【HTML5+CSS3+JS】

共101课时 | 9.6万人学习

JS进阶与BootStrap学习
JS进阶与BootStrap学习

共39课时 | 3.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号