使用hashlib分块读取文件可安全计算哈希值,支持MD5、SHA1、SHA256等算法,避免内存溢出。

使用 hashlib 计算文件哈希值
在 Python 中,可以使用内置的 hashlib 模块来计算文件的哈希值。常见的哈希算法如 MD5、SHA1、SHA256 都支持。由于文件可能较大,不能一次性全部读入内存,因此需要分块读取并逐步更新哈希对象。
基本步骤说明
计算文件哈希的核心思路是:
- 创建指定算法的哈希对象(如 sha256)
- 以固定大小块(如 8192 字节)循环读取文件内容
- 每读取一块,就用 update() 方法更新哈希值
- 读完所有数据后,调用 hexdigest() 获取十六进制哈希字符串
代码示例:计算 SHA256 哈希
以下是一个通用函数,用于计算任意文件的 SHA256 哈希值:
立即学习“Python免费学习笔记(深入)”;
def calculate_file_hash(filepath, algorithm='sha256'): hash_obj = hashlib.new(algorithm) with open(filepath, 'rb') as f: chunk_size = 8192 while chunk := f.read(chunk_size): hash_obj.update(chunk) return hash_obj.hexdigest()使用示例
import hashlib
file_path = 'example.txt'
print(calculate_file_hash(file_path))
如果只想用 SHA256,也可以直接使用 hashlib.sha256() 初始化:
def get_sha256(filepath): hash_sha256 = hashlib.sha256() with open(filepath, 'rb') as f: for chunk in iter(lambda: f.read(8192), b""): hash_sha256.update(chunk) return hash_sha256.hexdigest()支持多种算法的灵活版本
你可以通过传参选择不同哈希算法:
def file_checksum(filepath, algo='md5'): hash_func = getattr(hashlib, algo.lower(), None) if not hash_func: raise ValueError(f"不支持的算法: {algo}")hash_obj = hash_func()
with open(filepath, 'rb') as f:
for chunk in iter(lambda: f.read(4096), b""):
hash_obj.update(chunk)
return hash_obj.hexdigest() 示例调用
print(file_checksum('data.zip', 'md5'))
print(file_checksum('data.zip', 'sha1'))
常见算法包括:md5、sha1、sha256、sha512 等。
基本上就这些。使用 hashlib 分块处理文件,既能准确计算哈希,又避免内存溢出问题。










