Python如何读取超大TXT_按固定字节分块读取与内存占用优化

P粉602998670

发布时间：2026-03-17 11:09:01

531人浏览过

来源于php中文网

原创

用 open() 配合 read(size) 分块读取大文件最直接高效，应使用 'rb' 模式、2 的幂 size（如 65536），避免按行读取和编码中断问题，必要时对 UTF-8 边界做安全回退处理。

python如何读取超大txt_按固定字节分块读取与内存占用优化

用 `open()` 配合 `read(size)` 是最直接的分块读取方式

Python 默认的 open() 是缓冲 IO，但只要不调用 readlines() 或一次性 read()，就能避免把整个文件拖进内存。关键在控制每次读多少字节，而不是按行——因为超大 TXT 往往没换行或换行符不规律，按行容易卡死或 OOM。

实操建议：

始终用 mode='rb' 打开，避免编码解析开销；解码留到后续处理块内（如需）
size 建议设为 8192、65536 等 2 的幂，对大多数文件系统更友好
不要用 for line in f: —— 它底层仍会预读缓冲区，且无法控制字节数

示例：

with open('huge.txt', 'rb') as f:
    while True:
        chunk = f.read(65536)
        if not chunk:
            break
        # 处理 chunk，比如写入临时文件或提取字段

遇到中文/UTF-8 编码断裂怎么办

按字节读时，很可能在多字节字符中间截断，比如 UTF-8 中一个汉字占 3 字节，read(65536) 刚好停在第 2 字节处，后续 .decode('utf-8') 就抛 UnicodeDecodeError: invalid continuation byte。

解决思路不是“全量读完再解码”，而是“安全回退 + 边界对齐”：

立即学习“Python免费学习笔记（深入）”；

每次读完先检查末尾是否为完整 UTF-8 序列：用 chuck[-3:].decode('utf-8', errors='ignore') 看长度变化，或更准地用 surrogateescape 错误处理器保留原始字节
更稳妥的做法是：预留最后 1~3 字节不处理，和下一块拼接后再解码；或者用 io.TextIOWrapper 包一层，但它会牺牲“精确字节控制”优势
如果业务允许，改用 codecs.iterdecode() + iter(lambda: f.read(65536), b'') 组合，它内部会处理边界

`mmap` 适合只读、随机访问场景，但不省内存

有人看到“大文件”就想到 mmap，但它只是把文件映射成虚拟内存地址，并不减少 RSS 占用——操作系统仍可能把访问过的页加载进物理内存。真要压内存，mmap 反而更容易触发 swap。

HIX Translate

由 ChatGPT 提供支持的智能AI翻译器

下载

适用条件很窄：

你需要频繁跳转读某几段（比如查索引表），而不是顺序扫一遍
文件在本地磁盘，且你信任 OS 的 page cache 策略
不用 mmap 时已经确认 read() 调用本身成了瓶颈（少见）

示例：

import mmap
with open('huge.txt', 'rb') as f:
    with mmap.mmap(f.fileno(), 0, access=mmap.ACCESS_READ) as mm:
        # mm[1000000:1000100] 直接切片取字节

别忽略 `buffering` 参数和系统页大小的影响

默认 open(..., buffering=-1) 会让 Python 选系统默认缓冲区（通常是 8KiB），但如果你手动设了 buffering=0（仅限二进制模式），就会禁用缓冲——每次 read() 都触发一次系统调用，I/O 次数暴增，速度反而暴跌。

还有两个隐形坑：

Linux 下 read() 实际最小单位是页大小（通常 4KiB），你设 read(100)，内核仍可能读一页，只是 Python 只返回前 100 字节——剩余字节留在内核缓冲里，下次 read() 会先返回它们
SSD/NVMe 对齐读取（如 4K 对齐）有性能优势，所以 size 设为 4096 的倍数比设成 10000 更稳
Windows 上 \? 前缀可绕过路径长度限制，但和分块读无关，别乱加

实际跑起来你会发现：真正卡住的往往不是 Python，而是磁盘吞吐、编码校验、或者下游处理逻辑。字节分块只是第一关，后面每一步都得盯着 top 或 psutil.Process().memory_info().rss 看真实占用。

Python await怎么用_await后面必须接可等待对象(协程/Task/Future)规则解析

Python Flask表单怎么校验_深入WTForms自定义验证器编写指南与多字段联合复杂校验

Python树的层序遍历怎么写_利用队列辅助实现二叉树BFS广度遍历

Python Flask怎么发邮件_通过Flask-Mail配置SMTP服务器支持异步发送HTML模板邮件

Python协程怎么取消_task.cancel()抛出CancelledError异常与安全退出清理资源操作

相关标签:

python for Lambda windows linux

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：NumPy警告RuntimeWarning怎么关_np.seterr(divide=‘ignore’)屏蔽除0警告下一篇：暂无

作者最新文章

Python笛卡尔积怎么求_itertools.product多列表嵌套

2026-03-17 09:33

NumPy条件替换怎么做_np.where(condition, x, y)三元表达式向量化

2026-03-17 09:34

如何在Golang中实现SQLite的加密存储 Go语言SQLCipher集成

2026-03-17 09:34

SQL中LEFT JOIN与INNER JOIN区别_数据取舍原则与场景选择

2026-03-17 09:34

Redis如何清理失效的位置数据_利用ZREM指令删除Geo结构中的坐标点

2026-03-17 09:35

CSS如何使用反选伪类简化选择器

2026-03-17 09:35

宝塔面板下phpMyAdmin登录提示“#1862 密码过期”如何修改？

2026-03-17 09:36

mysql如何配置多线程并行回放类型_mysql slave_parallel_type选择

2026-03-17 09:37

MongoDB中可以使用布尔值或枚举值作为分片键吗_极低基数导致无法分块的严重错误

2026-03-17 09:38

mysql如何管理大批量用户的权限_mysql基于角色的权限模板

2026-03-17 09:38

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

lambda表达式

Lambda表达式是一种匿名函数的简洁表示方式，它可以在需要函数作为参数的地方使用，并提供了一种更简洁、更灵活的编码方式，其语法为“lambda 参数列表: 表达式”，参数列表是函数的参数，可以包含一个或多个参数，用逗号分隔，表达式是函数的执行体，用于定义函数的具体操作。本专题为大家提供lambda表达式相关的文章、下载、课程内容，供大家免费下载体验。

215

2023.09.15

python lambda函数

本专题整合了python lambda函数用法详解，阅读专题下面的文章了解更多详细内容。

193

2025.11.08

Python lambda详解

本专题整合了Python lambda函数相关教程，阅读下面的文章了解更多详细内容。

2026.01.05

windows查看端口占用情况

Windows端口可以认为是计算机与外界通讯交流的出入口。逻辑意义上的端口一般是指TCP/IP协议中的端口，端口号的范围从0到65535，比如用于浏览网页服务的80端口，用于FTP服务的21端口等等。怎么查看windows端口占用情况呢？php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

1541

2023.07.26