0

0

C++如何进行超大文本文件的逐行高效读取?(内存映射+换行定位)

尼克

尼克

发布时间:2026-02-24 12:27:13

|

264人浏览过

|

来源于php中文网

原创

mmap + memchr 手动扫描换行符可避免 i/o 流的缓冲开销与字符串扩容:映射文件后用 memchr 批量找 '\n',以 string_view 切分,零拷贝、无堆分配。

c++如何进行超大文本文件的逐行高效读取?(内存映射+换行定位)

为什么 fgetsstd::getline 在 GB 级文件上会变慢?

因为它们默认按字符逐个读取并检查 '\n',每次系统调用都带缓冲区管理开销;更关键的是,当行很长(比如日志中嵌套 JSON)或换行符稀疏时,std::getline 可能反复扩容内部字符串缓冲区,触发多次堆分配。

  • 每次 std::getline 调用至少一次 read() 系统调用(取决于 libc 缓冲策略)
  • 长行场景下,std::string 的指数扩容(如 1→2→4→8…字节)会产生大量临时内存拷贝
  • fgets 虽然避免了动态扩容,但需预估最大行长,超长则截断——这对日志、CSV、TSV 等格式不可接受

mmap + 手动换行扫描替代 I/O 流,核心怎么做?

把整个文件映射进虚拟内存,用指针遍历找 '\n',每找到一个就切出一行视图(std::string_view),全程不拷贝内容、不分配堆内存。

  • 先用 open() + mmap() 映射只读内存(PROT_READ),大小取 stat.st_size
  • 从映射起始地址开始,用 memchr() 批量找 '\n'(比单字节循环快得多)
  • 每次找到后,构造 std::string_view{start, found - start},然后更新 start = found + 1
  • 注意处理文件末尾无换行符的情况:最后一行需单独判断 start
char* data = static_cast<char*>(mmap(nullptr, size, PROT_READ, MAP_PRIVATE, fd, 0));
char* p = data;
char* end = data + size;
while (p < end) {
    char* nl = static_cast<char*>(memchr(p, '\n', end - p));
    if (!nl) break;
    std::string_view line(p, nl - p);
    process(line); // 不拷贝,不分配
    p = nl + 1;
}
if (p < end) process(std::string_view(p, end - p)); // 末尾无 \n 的行

mmap 在超大文件上有哪些坑?

不是所有平台都支持任意大小映射,也不是所有场景都适合——尤其当物理内存紧张时,内核可能延迟加载页(page fault),首次访问某段数据反而变慢。

Scribble Diffusion
Scribble Diffusion

使用AI将你的草图变成精致的图像

下载
  • Linux 上单次 mmap 支持 TB 级,但 Windows 的 CreateFileMapping 对 >4GB 文件需用 SEC_LARGE_PAGES 或分段映射
  • 若文件被其他进程截断,mmap 区域末尾可能读到 SIGBUS(需 sigaction 捕获或提前 fstat 校验)
  • 内存映射不等于“立刻加载”:只有实际访问的页才触发磁盘读,所以顺序扫描没问题,但随机跳转可能抖动
  • 不要对 mmap 区域调用 strlen 或基于 '\0' 的函数——文本文件没有结尾零

什么时候该放弃 mmap,退回带缓冲的流式读取?

当你的“超大文件”其实是很多小行(平均 mmap 的优势会被映射/解映射开销抵消;或者你根本不需要随机访问能力,只要顺序吞吐。

立即学习C++免费学习笔记(深入)”;

  • 行平均长度 std::getline 配合 std::ios::sync_with_stdio(false) + cin.tie(nullptr),性能差距往往不到 20%
  • 如果要边读边过滤(比如只取含 "ERROR" 的行),mmap + memchr 仍占优;但若还要做正则匹配或 UTF-8 解码,内存映射带来的控制权提升就更重要
  • 容器环境(如 Docker)中,mmap 可能受 vm.max_map_count 限制,报 Cannot allocate memory 错误,此时必须降级

真正难的不是选 mmap 还是 read,而是判断哪一行边界算“一行”:Windows 的 "\r\n"、老 Mac 的 "\r"、混用场景下的容错处理——这部分没法靠映射绕过,得自己扫。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

448

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

544

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

323

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

81

2025.09.10

string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

850

2023.08.02

fgets在c语言中的用法
fgets在c语言中的用法

本专题整合了c语言中fgets用法介绍,阅读专题下面的文章了解更多详细内容。

17

2025.08.27

scripterror怎么解决
scripterror怎么解决

scripterror的解决办法有检查语法、文件路径、检查网络连接、浏览器兼容性、使用try-catch语句、使用开发者工具进行调试、更新浏览器和JavaScript库或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

391

2023.10.18

500error怎么解决
500error怎么解决

500error的解决办法有检查服务器日志、检查代码、检查服务器配置、更新软件版本、重新启动服务、调试代码和寻求帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

348

2023.10.25

苹果官网入口与在线访问指南_中国站点快速直达与iPhone查看方法
苹果官网入口与在线访问指南_中国站点快速直达与iPhone查看方法

本专题汇总苹果官网最新可用入口及中国站点访问方式,涵盖官网直达链接、iPhone官方页面查看方法与常见访问说明,帮助用户快速进入苹果官方网站,便捷了解产品信息与官方服务。

2

2026.02.24

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
C# 教程
C# 教程

共94课时 | 10万人学习

C 教程
C 教程

共75课时 | 4.9万人学习

C++教程
C++教程

共115课时 | 19.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号