0

0

Python 文件一致性校验的多种方式

冷炫風刃

冷炫風刃

发布时间:2026-02-19 15:29:04

|

990人浏览过

|

来源于php中文网

原创

应优先使用 sha256 或 sha3_256 分块读取二进制文件校验,避免 md5 碰撞风险与大文件 oom;需确认文件写入完成、路径正确解析、跨系统比对强制 shallow=false,并警惕 filecmp.cmp() 的元数据与缓存缺陷。

python 文件一致性校验的多种方式

hashlib 做基础校验,但别只算 md5

文件一致性最直接的判断方式就是哈希值比对,hashlib 是 Python 标准库里最常用的工具。不过只用 md5 有风险:它碰撞概率高,不适合安全敏感场景;而且小文件和大文件都用同一套逻辑读取,容易在大文件上 OOM。

  • 优先选 sha256sha3_256,抗碰撞性强,校验更可靠
  • 必须分块读取,避免一次性 read() 加载整个文件——尤其处理几百 MB 以上的日志或模型权重时
  • 注意编码:校验二进制文件(如 .zip.so)时,务必用 'rb' 模式打开,否则 UnicodeDecodeError 会直接中断
import hashlib
def file_sha256(path):
    h = hashlib.sha256()
    with open(path, 'rb') as f:
        for chunk in iter(lambda: f.read(8192), b''):
            h.update(chunk)
    return h.hexdigest()

filecmp.cmp() 快但不总可信

filecmp.cmp() 看起来省事,但它默认不检查文件元数据,且在某些系统上会跳过内容比对(比如发现两个文件 size 不同就直接返回 False,但 size 相同却可能因缓存或挂载问题实际内容不同)。

  • 加参数 shallow=False 强制逐字节比对,否则可能漏掉硬链接或同名不同内容的情况
  • 跨文件系统(比如从 NFS 挂载点比对本地文件)时,shallow=True(默认)可能误判为相同,因为 os.stat() 返回的 inodemtime 不可比
  • 不适用于需要校验结果可复现的场景——它没有哈希输出,无法存档或跨环境验证

校验前先确认文件是否被截断或写入中

很多“校验失败”其实不是哈希问题,而是文件根本没写完。常见于日志轮转、模型导出、HTTP 下载未完成等场景。直接算哈希可能拿到半截内容,结果永远对不上。

Ink For All
Ink For All

AI写作和营销助手,精心设计的 UI

下载
  • 检查 os.path.getsize() 是否稳定:连续两次调用值一致,再开始校验
  • Linux 下可用 lsof 查看文件是否仍被进程占用写入(Python 里调用 subprocess.run(['lsof', '-f', '--', path])),Windows 可尝试 os.rename(path, path) 看是否抛 PermissionError
  • 如果文件由其他程序生成,优先等它显式释放锁(比如写完后 touch 一个 .done 文件),而不是靠延时 sleep

多文件批量校验时,路径和编码容易出错

批量处理 glob.glob('*.bin')os.listdir() 得到的文件列表,看似简单,但路径拼接错误、中文路径乱码、符号链接未解析等问题高频出现。

立即学习Python免费学习笔记(深入)”;

  • 永远用 pathlib.Path 拼接路径,别用字符串 +os.path.join() 混用斜杠——尤其在 Windows 上遇到 \/ 混杂时
  • 遇到中文或 emoji 路径,确保终端和 Python 运行环境编码一致(多数情况是 utf-8),否则 FileNotFoundError 可能掩盖真实问题
  • path.resolve() 展开符号链接,否则校验的是 link 本身而非目标文件,导致哈希值不匹配
校验这件事,难点不在算法,而在你是否真的拿到了那个“此刻完整、未被干扰”的文件副本。时间差、权限、挂载状态、路径歧义——这些细节一漏,哈希再准也没用。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

573

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

216

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1553

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

640

2023.11.24

java读取文件转成字符串的方法
java读取文件转成字符串的方法

Java8引入了新的文件I/O API,使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java,可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中,你需要将文件路径替换为你的实际文件路径,并且可能需要处理可能的IOException异常。想了解更多java的相关内容,可以阅读本专题下面的文章。

945

2024.03.22

php中定义字符串的方式
php中定义字符串的方式

php中定义字符串的方式:单引号;双引号;heredoc语法等等。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

896

2024.04.29

go语言字符串相关教程
go语言字符串相关教程

本专题整合了go语言字符串相关教程,阅读专题下面的文章了解更多详细内容。

185

2025.07.29

c++字符串相关教程
c++字符串相关教程

本专题整合了c++字符串相关教程,阅读专题下面的文章了解更多详细内容。

89

2025.08.07

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

660

2026.02.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Django 教程
Django 教程

共28课时 | 4.4万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号