0

0

C++如何处理大文件读取?(内存映射mmap用法)

冰火之心

冰火之心

发布时间:2026-03-02 07:27:22

|

824人浏览过

|

来源于php中文网

原创

mmap 比 fread 适合读大文件,因其按需映射、避免大块内存分配和冗余拷贝,尤其适用于只读或稀疏访问的 gb 级文件;但全量顺序读时可能因缺页中断变慢,此时 read + 预读更优。

c++如何处理大文件读取?(内存映射mmap用法)

为什么 mmapfread 适合读大文件

因为 mmap 不把整个文件一次性拷贝进用户内存,而是让内核按需把磁盘页映射到进程地址空间。你访问哪段,内核才加载哪段,避免了 malloc + fread 的大块内存分配和冗余拷贝。尤其对 GB 级日志、数据库快照、二进制数据集这类只读或稀疏访问的场景,延迟更低、系统开销更小。

但注意:mmap 不是万能加速器——如果文件远大于物理内存,且你顺序扫全量内容,mmap 反而可能因频繁缺页中断拖慢速度;这时候 read(2) 配合预读(posix_fadvise(fd, 0, 0, POSIX_FADV_WILLNEED))更稳。

mmap 最简安全用法(Linux / macOS)

核心就三步:打开文件 → 获取大小 → 映射。关键不是“怎么写”,而是“怎么避错”:

  • open() 必须带 O_RDONLY(只读)或 O_RDWR(可写),不能用 O_APPENDO_TRUNC
  • 映射前务必用 fstat() 拿真实文件大小,别信 lseek(fd, 0, SEEK_END) —— 对某些特殊文件(如设备节点、/proc 下文件)会失败或返回 0
  • mmap() 返回 MAP_FAILED 时,必须检查 errnoEINVAL(offset 未按页对齐)、ENOMEM(虚拟地址空间不足,不是内存不够)、EPERM(文件不可执行且 noexec 挂载选项启用)
  • 映射后记得 munmap(),否则泄漏的是虚拟内存(不是物理内存),但会耗尽进程地址空间(尤其在 32 位或受限容器里)

示例片段:

立即学习C++免费学习笔记(深入)”;

NetShop网店系统
NetShop网店系统

NetShop软件特点介绍: 1、使用ASP.Net(c#)2.0、多层结构开发 2、前台设计不采用任何.NET内置控件读取数据,完全标签化模板处理,加快读取速度3、安全的数据添加删除读取操作,利用存储过程模式彻底防制SQL注入式攻击4、前台架构DIV+CSS兼容IE6,IE7,FF等,有利于搜索引挚收录5、后台内置强大的功能,整合多家网店系统的功能,加以优化。6、支持三种类型的数据库:Acces

下载
int fd = open("data.bin", O_RDONLY);
struct stat st;
fstat(fd, &st);
void* ptr = mmap(nullptr, st.st_size, PROT_READ, MAP_PRIVATE, fd, 0);
if (ptr == MAP_FAILED) { /* 处理 errno */ }
// 使用 ptr 当作普通指针读取
munmap(ptr, st.st_size);
close(fd);

Windows 上没 mmap 怎么办

Windows 没原生 mmap,但有语义等价的 CreateFileMapping + MapViewOfFile。别硬套 Linux 写法,重点差异在:

  • 文件句柄必须用 GENERIC_READ 打开,且 CreateFileMappingflProtect 要匹配:只读用 PAGE_READONLY,可写用 PAGE_READWRITE
  • 映射大小不能超过文件实际长度,且 MapViewOfFiledwNumberOfBytesToMap 若为 0,表示映射全部(Linux 下 mmaplength 为 0 是非法的)
  • 错误判断靠 GetLastError(),常见 ERROR_MAPPED_FILE(文件被其他进程以不兼容方式打开)、ERROR_NOT_ENOUGH_MEMORY(不是物理内存不足,而是用户模式地址空间碎片化)

跨平台代码建议封装一层,比如用宏区分:#ifdef _WIN32 走 Windows API,否则走 mmap

映射后访问越界或 SIGBUS 怎么办

SIGBUSmmap 最典型的运行时错误,根本原因是访问了未映射的地址——不是空指针那种崩溃,而是内核直接发信号终止进程。常见原因:

  • 文件在映射后被截断(ftruncate)或删除(unlink),导致后续访问对应页时缺页失败
  • 映射时用了 MAP_SHARED,但文件被其他进程并发修改,破坏了页对齐假设
  • sizeof(struct) 计算结构体数组偏移,但结构体有 padding,跨页边界时部分字段落在未映射区域
  • 忘了 st.st_size 是字节数,却当成“元素个数”去循环访问(比如 for (int i=0; i<size i arr>,但 <code>arruint64_t*

调试技巧:用 gdb 捕获 SIGBUS,然后 info proc mappings 看当前映射范围;生产环境建议加 sigaction 捕获并记录 si_addr(出错地址)与 /proc/self/maps 对比。

真正麻烦的不是映射本身,是文件生命周期和内存访问模式的耦合——一旦文件被外部工具轮转、压缩或清空,mmap 区域就变成定时炸弹。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
golang结构体相关大全
golang结构体相关大全

本专题整合了golang结构体相关大全,想了解更多内容,请阅读专题下面的文章。

428

2025.06.09

golang结构体方法
golang结构体方法

本专题整合了golang结构体相关内容,请阅读专题下面的文章了解更多。

201

2025.07.04

string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

910

2023.08.02

int占多少字节
int占多少字节

int占4个字节,意味着一个int变量可以存储范围在-2,147,483,648到2,147,483,647之间的整数值,在某些情况下也可能是2个字节或8个字节,int是一种常用的数据类型,用于表示整数,需要根据具体情况选择合适的数据类型,以确保程序的正确性和性能。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

595

2024.08.29

c++怎么把double转成int
c++怎么把double转成int

本专题整合了 c++ double相关教程,阅读专题下面的文章了解更多详细内容。

294

2025.08.29

C++中int的含义
C++中int的含义

本专题整合了C++中int相关内容,阅读专题下面的文章了解更多详细内容。

210

2025.08.29

length函数用法
length函数用法

length函数用于返回指定字符串的字符数或字节数。可以用于计算字符串的长度,以便在查询和处理字符串数据时进行操作和判断。 需要注意的是length函数计算的是字符串的字符数,而不是字节数。对于多字节字符集,一个字符可能由多个字节组成。因此,length函数在计算字符串长度时会将多字节字符作为一个字符来计算。更多关于length函数的用法,大家可以阅读本专题下面的文章。

952

2023.09.19

空指针异常处理
空指针异常处理

本专题整合了空指针异常解决方法,阅读专题下面的文章了解更多详细内容。

23

2025.11.16

Golang 测试体系与代码质量保障:工程级可靠性建设
Golang 测试体系与代码质量保障:工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链(如go test)、单元测试、集成测试及端到端测试实践,结合代码覆盖率分析、静态代码扫描(如go vet)和动态分析工具,建立全链路质量监控机制。通过自动化测试框架、持续集成(CI)流水线配置及代码审查规范,实现测试用例管理、缺陷追踪与质量门禁控制,确保代码健壮性与可维护性,为高可靠性工程系统提供质量保障。

24

2026.02.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
C# 教程
C# 教程

共94课时 | 10.5万人学习

C 教程
C 教程

共75课时 | 5.1万人学习

C++教程
C++教程

共115课时 | 20万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号