0

0

c++如何高效读写大型文件_c++内存映射文件【进阶】

裘德小鎮的故事

裘德小鎮的故事

发布时间:2026-02-18 07:01:22

|

823人浏览过

|

来源于php中文网

原创

mmap 比 fread/fwrite 更快因其绕过内核缓冲区多次拷贝,实现文件到虚拟内存的直接映射,但存在缺页中断等隐性开销;适用于大文件随机访问、多进程共享只读数据或固定区域频繁修改。

c++如何高效读写大型文件_c++内存映射文件【进阶】

为什么 mmap 比 fread/fwrite 更快?

因为 mmap 绕过了内核缓冲区的多次拷贝:普通读写要经历「磁盘 → 内核页缓存 → 用户缓冲区」,而 mmap 让文件内容直接映射进进程虚拟地址空间,访问就像读写内存一样。但注意,这不等于“无代价”——缺页中断、页表管理、TLB 压力都是隐性开销。

适用场景:mmap 真正高效的地方是随机访问大文件(比如数据库索引、日志查找)、需要多进程共享同一份只读数据、或频繁修改固定区域(如位图、内存池头)。顺序流式读写反而可能因预读策略失效而变慢。

  • 64 位系统下推荐用 MAP_POPULATE 预加载物理页,避免首次访问时卡顿
  • 只读场景加 PROT_READMAP_PRIVATE,避免写时复制(COW)开销
  • 写入后必须调用 msync(MS_SYNC) 才能保证落盘,munmap 不触发同步

Windows 上怎么等价实现 mmap?

Windows 没有 mmap,但 CreateFileMapping + MapViewOfFile 功能完全对应。关键差异在于句柄管理和保护标志:

  • CreateFile 必须带 GENERIC_READ | GENERIC_WRITE,即使只读也要申请写权限(否则 CreateFileMapping 失败)
  • MapViewOfFiledwDesiredAccess 才真正控制访问权限:FILE_MAP_READ / FILE_MAP_WRITE
  • 映射大小不能超过文件实际长度;若需扩展,先用 SetFilePointerEx + SetEndOfFile 扩容,再映射

错误示例:ERROR_MAPPED_FILE 常因文件句柄未设 FILE_FLAG_RANDOM_ACCESS 导致,尤其在 SSD 上影响预读性能。

立即学习C++免费学习笔记(深入)”;

Neon AI
Neon AI

Neon AI帮助开发人员创建会话式AI应用程序和设备

下载

如何安全处理大于 2GB 的文件映射?

32 位程序天然受限于 4GB 虚拟地址空间,即使文件只有 2.5GB,也可能因 DLL 占位导致无法分配连续映射区。64 位下虽无此限,但仍有陷阱:

  • Linux:mmaplength 参数是 size_t,但某些老内核对超大映射会返回 ENOMEM,建议分块映射(如每次 512MB)
  • Windows:MapViewOfFiledwNumberOfBytesToMapDWORD(最大 4GB),超限时必须用 MapViewOfFileEx 并手动指定基址
  • 跨平台代码别用 sizeof(int) 判断文件大小,统一用 off_t(Linux)或 LARGE_INTEGER(Windows)

一个易忽略点:statGetFileSizeEx 返回的大小可能被其他进程截断,映射前最好加 flockLockFileEx

munmap 后指针还能用吗?

不能。一旦调用 munmap(或 Windows 的 UnmapViewOfFile),对应虚拟地址区间立即失效。后续访问会触发 SEGV_MAPERR(Linux)或 ACCESS_VIOLATION(Windows),不是“数据丢失”,而是段错误。

  • 多线程中务必确保无任何线程仍在访问该映射区,munmap 本身不是原子操作
  • RAII 封装时,析构函数里 munmap 前要加 std::atomic_thread_fence 防止编译器重排
  • 调试时可用 /proc/self/maps(Linux)或 VMMap 工具确认映射是否残留

最常被忽视的是信号处理:若在 SIGSEGV 信号 handler 中尝试访问已 munmap 的地址,会导致递归崩溃——handler 本身可能就运行在该映射区内。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

750

2023.08.02

int占多少字节
int占多少字节

int占4个字节,意味着一个int变量可以存储范围在-2,147,483,648到2,147,483,647之间的整数值,在某些情况下也可能是2个字节或8个字节,int是一种常用的数据类型,用于表示整数,需要根据具体情况选择合适的数据类型,以确保程序的正确性和性能。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

572

2024.08.29

c++怎么把double转成int
c++怎么把double转成int

本专题整合了 c++ double相关教程,阅读专题下面的文章了解更多详细内容。

234

2025.08.29

C++中int的含义
C++中int的含义

本专题整合了C++中int相关内容,阅读专题下面的文章了解更多详细内容。

210

2025.08.29

length函数用法
length函数用法

length函数用于返回指定字符串的字符数或字节数。可以用于计算字符串的长度,以便在查询和处理字符串数据时进行操作和判断。 需要注意的是length函数计算的是字符串的字符数,而不是字节数。对于多字节字符集,一个字符可能由多个字节组成。因此,length函数在计算字符串长度时会将多字节字符作为一个字符来计算。更多关于length函数的用法,大家可以阅读本专题下面的文章。

950

2023.09.19

线程和进程的区别
线程和进程的区别

线程和进程的区别:线程是进程的一部分,用于实现并发和并行操作,而线程共享进程的资源,通信更方便快捷,切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

675

2023.08.10

Python 多线程与异步编程实战
Python 多线程与异步编程实战

本专题系统讲解 Python 多线程与异步编程的核心概念与实战技巧,包括 threading 模块基础、线程同步机制、GIL 原理、asyncio 异步任务管理、协程与事件循环、任务调度与异常处理。通过实战示例,帮助学习者掌握 如何构建高性能、多任务并发的 Python 应用。

366

2025.12.24

java多线程相关教程合集
java多线程相关教程合集

本专题整合了java多线程相关教程,阅读专题下面的文章了解更多详细内容。

25

2026.01.21

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

462

2026.02.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
C# 教程
C# 教程

共94课时 | 9.6万人学习

C 教程
C 教程

共75课时 | 4.8万人学习

C++教程
C++教程

共115课时 | 18.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号