0

0

C++如何实现大文件的快速读取_C++利用内存映射文件mmap技术【性能】

冰火之心

冰火之心

发布时间:2026-02-05 15:18:10

|

664人浏览过

|

来源于php中文网

原创

mmap比fread更快读大文件,因其将文件直接映射为进程虚拟内存,读取即内存访问,省去内核/用户态拷贝与系统调用开销,尤其利于随机读、重复读和多线程并发读。

c++如何实现大文件的快速读取_c++利用内存映射文件mmap技术【性能】

为什么 mmap 比 fread 更快读大文件

mmap 不走传统 I/O 缓冲路径,它把文件直接映射成进程虚拟内存的一段,后续读取就是普通的内存访问(mov 指令级别),省去了内核态/用户态多次拷贝、系统调用开销。尤其对随机读、重复读、多线程并发读大文件,优势明显。但注意:它不减少磁盘 IO 本身,只是优化了数据搬运路径。

常见误判点:mmap 并非“一定更快”——小文件(

Linux 下 mmap 读取大文件的最小可靠写法

核心是正确处理 mmap 返回地址、长度对齐、以及 MAP_PRIVATE / MAP_SHARED 的选择。对只读场景,优先用 MAP_PRIVATE,避免写时复制(COW)干扰。

  • open() 必须带 O_RDONLY,且检查返回值是否为 -1
  • lseek()fstat() 获取真实文件大小,不能依赖 stat.st_size 未刷新的情况
  • mmap()length 参数必须 ≤ 文件大小;若传入 > 文件大小,映射区域末尾读取会触发 SIGBUS
  • 映射后记得 munmap(),否则泄漏虚拟内存(虽不占物理内存,但耗 vm.max_map_count

示例关键片段:

立即学习C++免费学习笔记(深入)”;

塔猫ChatPPT
塔猫ChatPPT

塔猫官网提供AI一键生成 PPT的智能工具,帮助您快速制作出专业的PPT。塔猫ChatPPT让您的PPT制作更加简单高效。

下载
int fd = open("large.bin", O_RDONLY);
struct stat sb;
fstat(fd, &sb);
void* addr = mmap(nullptr, sb.st_size, PROT_READ, MAP_PRIVATE, fd, 0);
if (addr == MAP_FAILED) { /* handle error */ }
// 使用 addr 作为 char* 直接读取
munmap(addr, sb.st_size);
close(fd);

mmap 在 Windows 上怎么对应实现

Windows 没有 mmap,但等效机制是 CreateFileMapping() + MapViewOfFile()。行为逻辑一致,但细节差异多:

  • 必须先用 CreateFile() 打开文件,且 dwDesiredAccess 要匹配映射保护标志(如只读映射需 GENERIC_READ
  • CreateFileMapping()flProtectPAGE_READONLY,而非 PROT_READ
  • MapViewOfFile() 返回的是 LPCVOID,类型安全起见建议 static_cast 转换
  • 关闭顺序固定:先 UnmapViewOfFile(),再 CloseHandle() 映射句柄和文件句柄

跨平台封装时,别试图宏定义统一接口——二者错误码、生命周期、权限模型差异太大,容易埋坑。

容易被忽略的性能陷阱和调试信号

真正影响 mmap 实际性能的,往往不是映射本身,而是使用方式:

  • 频繁跨页访问(如每次只读 1 字节且地址不连续)会引发大量缺页中断,比 fread 更慢
  • 未对齐访问(如 int* 强转到非 4 字节对齐地址)在某些 CPU 架构上会崩溃或严重降速
  • strace 下看不到 read() 系统调用,但能看到 mmap 和大量 gettimeofday(因缺页统计),这是正常现象
  • /proc/[pid]/maps 可确认映射是否成功、是否被 split 或 merge,避免误判“没映射上”

调试 SIGBUS 错误,90% 是因为读越界(超过 st_size)或文件被其他进程截断——务必检查文件是否被动态修改。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
c语言const用法
c语言const用法

const是关键字,可以用于声明常量、函数参数中的const修饰符、const修饰函数返回值、const修饰指针。详细介绍:1、声明常量,const关键字可用于声明常量,常量的值在程序运行期间不可修改,常量可以是基本数据类型,如整数、浮点数、字符等,也可是自定义的数据类型;2、函数参数中的const修饰符,const关键字可用于函数的参数中,表示该参数在函数内部不可修改等等。

536

2023.09.20

string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

585

2023.08.02

int占多少字节
int占多少字节

int占4个字节,意味着一个int变量可以存储范围在-2,147,483,648到2,147,483,647之间的整数值,在某些情况下也可能是2个字节或8个字节,int是一种常用的数据类型,用于表示整数,需要根据具体情况选择合适的数据类型,以确保程序的正确性和性能。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

549

2024.08.29

c++怎么把double转成int
c++怎么把double转成int

本专题整合了 c++ double相关教程,阅读专题下面的文章了解更多详细内容。

153

2025.08.29

C++中int的含义
C++中int的含义

本专题整合了C++中int相关内容,阅读专题下面的文章了解更多详细内容。

204

2025.08.29

硬盘接口类型介绍
硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍:1、IDE接口是一种并行接口,主要用于连接硬盘和光驱等设备,它主要有两种类型:ATA和ATAPI,IDE接口已经逐渐被SATA接口;2、SATA接口是一种串行接口,相较于IDE接口,它具有更高的传输速度、更低的功耗和更小的体积;3、SCSI接口等等。

1258

2023.10.19

PHP接口编写教程
PHP接口编写教程

本专题整合了PHP接口编写教程,阅读专题下面的文章了解更多详细内容。

275

2025.10.17

php8.4实现接口限流的教程
php8.4实现接口限流的教程

PHP8.4本身不内置限流功能,需借助Redis(令牌桶)或Swoole(漏桶)实现;文件锁因I/O瓶颈、无跨机共享、秒级精度等缺陷不适用高并发场景。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2195

2025.12.29

java中fail含义
java中fail含义

本专题整合了java中fail的含义、作用相关内容,阅读专题下面的文章了解更多详细内容。

0

2026.02.05

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 8.5万人学习

Excel 教程
Excel 教程

共162课时 | 15.6万人学习

PHP基础入门课程
PHP基础入门课程

共33课时 | 2.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号