不能直接用readlines()读大文件,因为它会将整个文件一次性加载进内存导致MemoryError;应使用for line in f逐行惰性读取,内存占用仅取决于最长行。

为什么不能直接用 readlines() 读大文件
因为 readlines() 会把整个文件一次性加载进内存,生成一个包含所有行的列表。哪怕文件只有几百 MB,也可能触发 MemoryError,尤其在内存受限的服务器或容器里。这不是速度问题,是根本不可行。
正确做法是让 Python 按需读取——也就是利用文件对象本身的迭代器协议,它天然支持逐行、惰性读取,内存占用只跟最长那一行有关。
- ✅ 推荐:
for line in f:—— 最简洁、最省内存、最 Pythonic - ⚠️ 可选:
f.readline()—— 需手动循环,适合需要精细控制读取逻辑的场景(比如跳过前 N 行后再处理) - ❌ 避免:
f.readlines()、f.read().splitlines()—— 全量加载,无一例外
如何安全处理带编码和换行符的超长行
大文件常来自日志、CSV 或爬虫导出,可能混用 \r\n、\n,甚至含 BOM 或非 UTF-8 编码(如 GBK)。直接 open() 不指定参数容易报 UnicodeDecodeError 或读错内容。
关键不是“能不能读”,而是“读出来是不是你想要的那行”。建议显式声明编码,并用 newline='' 把换行符交给 Python 自己处理(避免误判 CRLF):
立即学习“Python免费学习笔记(深入)”;
with open('huge.log', encoding='utf-8-sig', newline='') as f:
for line in f:
line = line.rstrip('\r\n') # 去掉换行符,保留行内\r\n(如日志中的转义)
process(line)
-
utf-8-sig自动跳过 UTF-8 BOM,比纯utf-8更鲁棒 -
newline=''禁用 universal newlines 的自动转换,防止某些边缘情况(如二进制混合文本)误切行 -
rstrip('\r\n')比strip()更精准:不误删行首尾有意义的空格或制表符
需要跳过头部或按块处理时怎么写才不崩
有些大文件有固定头(如 CSV 表头、JSON 数组外层),或者你想每 1000 行做一次批量写入/统计。这时不能先 list(f) 再切片,而要用迭代器工具或手动计数。
两种稳妥方式:
Vuex是一个专门为Vue.js应用设计的状态管理模型 + 库。它为应用内的所有组件提供集中式存储服务,其中的规则确保状态只能按预期方式变更。它可以与 Vue 官方开发工具扩展(devtools extension) 集成,提供高级特征,比如 零配置时空旅行般(基于时间轴)调试,以及状态快照 导出/导入。本文给大家带来Vuex参考手册,需要的朋友们可以过来看看!
- 跳过前 N 行:
itertools.islice(f, N, None)—— 不缓存,不额外内存开销 - 分批读取:
itertools.islice(f, batch_size)套在 while 循环里,每次取一批
示例:跳过 CSV 表头,每 500 行批量插入数据库
import itertoolswith open('data.csv', encoding='utf-8') as f: next(f) # 跳过第一行(更直观,比 islice(1) 更易读) while True: batch = list(itertools.islice(f, 500)) if not batch: break insert_batch_to_db(batch) # batch 是 500 个 str,已去换行符
注意:list(islice(...)) 这一步会把这批行全载入内存,但总量可控(500 × 平均行长),远小于全文件加载。
用 yield 封装成生成器后反而变慢?
有人把逐行读取封装成生成器函数,比如 def read_lines(path): ... yield line,本意是复用,但发现性能下降。原因通常是:生成器调用本身有开销,且如果后续处理本身很简单(如只做字符串查找),函数调用成本可能超过收益。
真实瓶颈从来不在“是否用了生成器”,而在「磁盘 I/O 是否被掩盖」和「每行处理是否阻塞」:
- ✅ 适合封装:每行要发 HTTP 请求、查数据库、调用外部命令——这些耗时操作天然掩盖生成器开销
- ❌ 过度封装:每行只做
line.startswith()或json.loads()—— 直接for line in f:更快 - ⚠️ 注意点:生成器里别在
yield前做重操作(如解析整行 JSON),否则会卡住迭代流;应yield raw_line,由调用方决定何时解析
真正影响吞吐的是系统缓冲区大小、磁盘随机/顺序读性能、以及你的处理逻辑是否让 CPU 等待 I/O——而不是 for 循环写在哪一层。









