0

0

C++如何进行大文件哈希计算?(分块读取避免内存溢出)

裘德小鎮的故事

裘德小鎮的故事

发布时间:2026-02-28 11:35:03

|

602人浏览过

|

来源于php中文网

原创

不能一次性读入大文件再哈希,因为会触发std::bad_alloc或oom killer;应分块读取(如64kb–1mb buffer),用binary模式、检查gcount()、禁用流缓冲,并选用openssl或libsodium等成熟哈希库。

c++如何进行大文件哈希计算?(分块读取避免内存溢出)

为什么不能一次性读入大文件再哈希?

因为 std::ifstream::read 读取几百 MB 或几 GB 文件时,会直接申请等量内存(比如 new char[1024*1024*1024]),触发 std::bad_alloc 或让程序被系统 OOM killer 杀掉。哈希算法本身(如 SHA-256)只依赖当前块和上一轮状态,完全不需要全量加载。

std::ifstream 分块读取的正确姿势

核心是避免临时缓冲区过大,同时保证每次读取不破坏数据边界(比如不能把一个字节拆到两块里)。实际只需固定大小 buffer,循环 read() + gcount() 判断真实读入字节数:

  • buffer 大小建议设为 64KB–1MB(8192655361048576 都行,太小增加系统调用开销,太大无意义)
  • 必须检查 ifs.gcount(),而非直接用 sizeof(buffer) —— 最后一块通常不足缓冲区大小
  • 打开文件务必用 std::ios::binary,否则 Windows 下遇到 \r\n 会被误转,哈希值错乱
std::ifstream ifs("huge.bin", std::ios::binary);
if (!ifs) return;
unsigned char buf[65536];
while (ifs.read(reinterpret_cast<char*>(buf), sizeof(buf))) {
    hasher.update(buf, sizeof(buf));
}
// 处理最后一块
size_t last_n = static_cast<size_t>(ifs.gcount());
if (last_n > 0) {
    hasher.update(buf, last_n);
}

选哪个哈希库?别自己手写 SHA

标准库不提供加密哈希,硬写易出错且没优化。推荐两个轻量选择:

Timebolt
Timebolt

视频静态过滤器,可以快速自动删除沉默镜头

下载
  • openssl:稳定、支持多算法,但链接稍重;用 EVP_DigestUpdate 接收分块指针即可
  • libsodium:更现代,API 简洁(crypto_hash_sha256_update),默认静态链接友好,Windows/macOS/Linux 全支持
  • 避开 boost::uuids::detail::sha1 这类内部实现,它未公开保证分块接口稳定性

性能关键点:buffer 大小和 I/O 模式

实测在 NVMe 上,buffer 从 4KB 升到 128KB,SHA-256 吞吐能提升 3–5 倍;但超过 1MB 后收益趋缓。另外两个细节常被忽略:

立即学习C++免费学习笔记(深入)”;

  • 关闭 std::ifstream 的同步(ifs.sync_with_stdio(false)),避免与 C stdio 交互拖慢
  • ifs.rdbuf()->pubsetbuf(nullptr, 0) 禁用流缓冲 —— 因为你已经手动管理 buffer,双重缓冲反而降低效率
  • 如果文件路径来自用户输入,记得用 std::filesystem::file_size() 提前校验是否存在、是否为常规文件,避免哈希设备节点或符号链接导致阻塞
分块哈希真正难的不是循环逻辑,而是 buffer 生命周期管理、最后不满块的处理、以及二进制模式下跨平台换行符静默转换——这些地方一漏,哈希值就不可复现。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
硬盘接口类型介绍
硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍:1、IDE接口是一种并行接口,主要用于连接硬盘和光驱等设备,它主要有两种类型:ATA和ATAPI,IDE接口已经逐渐被SATA接口;2、SATA接口是一种串行接口,相较于IDE接口,它具有更高的传输速度、更低的功耗和更小的体积;3、SCSI接口等等。

1705

2023.10.19

PHP接口编写教程
PHP接口编写教程

本专题整合了PHP接口编写教程,阅读专题下面的文章了解更多详细内容。

527

2025.10.17

php8.4实现接口限流的教程
php8.4实现接口限流的教程

PHP8.4本身不内置限流功能,需借助Redis(令牌桶)或Swoole(漏桶)实现;文件锁因I/O瓶颈、无跨机共享、秒级精度等缺陷不适用高并发场景。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2321

2025.12.29

java接口相关教程
java接口相关教程

本专题整合了java接口相关内容,阅读专题下面的文章了解更多详细内容。

41

2026.01.19

windows查看端口占用情况
windows查看端口占用情况

Windows端口可以认为是计算机与外界通讯交流的出入口。逻辑意义上的端口一般是指TCP/IP协议中的端口,端口号的范围从0到65535,比如用于浏览网页服务的80端口,用于FTP服务的21端口等等。怎么查看windows端口占用情况呢?php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

1314

2023.07.26

查看端口占用情况windows
查看端口占用情况windows

端口占用是指与端口关联的软件占用端口而使得其他应用程序无法使用这些端口,端口占用问题是计算机系统编程领域的一个常见问题,端口占用的根本原因可能是操作系统的一些错误,服务器也可能会出现端口占用问题。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

1156

2023.07.27

windows照片无法显示
windows照片无法显示

当我们尝试打开一张图片时,可能会出现一个错误提示,提示说"Windows照片查看器无法显示此图片,因为计算机上的可用内存不足",本专题为大家提供windows照片无法显示相关的文章,帮助大家解决该问题。

825

2023.08.01

windows查看端口被占用的情况
windows查看端口被占用的情况

windows查看端口被占用的情况的方法:1、使用Windows自带的资源监视器;2、使用命令提示符查看端口信息;3、使用任务管理器查看占用端口的进程。本专题为大家提供windows查看端口被占用的情况的相关的文章、下载、课程内容,供大家免费下载体验。

460

2023.08.02

Golang 测试体系与代码质量保障:工程级可靠性建设
Golang 测试体系与代码质量保障:工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链(如go test)、单元测试、集成测试及端到端测试实践,结合代码覆盖率分析、静态代码扫描(如go vet)和动态分析工具,建立全链路质量监控机制。通过自动化测试框架、持续集成(CI)流水线配置及代码审查规范,实现测试用例管理、缺陷追踪与质量门禁控制,确保代码健壮性与可维护性,为高可靠性工程系统提供质量保障。

0

2026.02.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
C# 教程
C# 教程

共94课时 | 10.3万人学习

C 教程
C 教程

共75课时 | 5万人学习

C++教程
C++教程

共115课时 | 19.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号