Python 大文件逐行处理的正确方式

舞夢輝影

发布时间：2026-01-29 17:42:09

444人浏览过

来源于php中文网

原创

不能直接用readlines()读大文件，因为它会将整个文件一次性加载进内存导致MemoryError；应使用for line in f逐行惰性读取，内存占用仅取决于最长行。

python 大文件逐行处理的正确方式

为什么不能直接用 `readlines()` 读大文件

因为 readlines() 会把整个文件一次性加载进内存，生成一个包含所有行的列表。哪怕文件只有几百 MB，也可能触发 MemoryError，尤其在内存受限的服务器或容器里。这不是速度问题，是根本不可行。

正确做法是让 Python 按需读取——也就是利用文件对象本身的迭代器协议，它天然支持逐行、惰性读取，内存占用只跟最长那一行有关。

✅ 推荐：for line in f: —— 最简洁、最省内存、最 Pythonic
⚠️ 可选：f.readline() —— 需手动循环，适合需要精细控制读取逻辑的场景（比如跳过前 N 行后再处理）
❌ 避免：f.readlines()、f.read().splitlines() —— 全量加载，无一例外

如何安全处理带编码和换行符的超长行

大文件常来自日志、CSV 或爬虫导出，可能混用 \r\n、\n，甚至含 BOM 或非 UTF-8 编码（如 GBK）。直接 open() 不指定参数容易报 UnicodeDecodeError 或读错内容。

关键不是“能不能读”，而是“读出来是不是你想要的那行”。建议显式声明编码，并用 newline='' 把换行符交给 Python 自己处理（避免误判 CRLF）：

立即学习“Python免费学习笔记（深入）”；

with open('huge.log', encoding='utf-8-sig', newline='') as f:
    for line in f:
        line = line.rstrip('\r\n')  # 去掉换行符，保留行内\r\n（如日志中的转义）
        process(line)

utf-8-sig 自动跳过 UTF-8 BOM，比纯 utf-8 更鲁棒
newline='' 禁用 universal newlines 的自动转换，防止某些边缘情况（如二进制混合文本）误切行
rstrip('\r\n') 比 strip() 更精准：不误删行首尾有意义的空格或制表符

需要跳过头部或按块处理时怎么写才不崩

有些大文件有固定头（如 CSV 表头、JSON 数组外层），或者你想每 1000 行做一次批量写入/统计。这时不能先 list(f) 再切片，而要用迭代器工具或手动计数。

两种稳妥方式：

VanceAI Image Resizer

VanceAI推出的在线图片尺寸调整工具

下载

跳过前 N 行：itertools.islice(f, N, None) —— 不缓存，不额外内存开销
分批读取：itertools.islice(f, batch_size) 套在 while 循环里，每次取一批

示例：跳过 CSV 表头，每 500 行批量插入数据库

import itertools
<p>with open('data.csv', encoding='utf-8') as f:
next(f)  # 跳过第一行（更直观，比 islice(1) 更易读）
while True:
batch = list(itertools.islice(f, 500))
if not batch:
break
insert_batch_to_db(batch)  # batch 是 500 个 str，已去换行符

注意：list(islice(...)) 这一步会把这批行全载入内存，但总量可控（500 × 平均行长），远小于全文件加载。

用 `yield` 封装成生成器后反而变慢？

有人把逐行读取封装成生成器函数，比如 def read_lines(path): ... yield line，本意是复用，但发现性能下降。原因通常是：生成器调用本身有开销，且如果后续处理本身很简单（如只做字符串查找），函数调用成本可能超过收益。

真实瓶颈从来不在“是否用了生成器”，而在「磁盘 I/O 是否被掩盖」和「每行处理是否阻塞」：

✅ 适合封装：每行要发 HTTP 请求、查数据库、调用外部命令——这些耗时操作天然掩盖生成器开销
❌ 过度封装：每行只做 line.startswith() 或 json.loads() —— 直接 for line in f: 更快
⚠️ 注意点：生成器里别在 yield 前做重操作（如解析整行 JSON），否则会卡住迭代流；应 yield raw_line，由调用方决定何时解析

真正影响吞吐的是系统缓冲区大小、磁盘随机/顺序读性能、以及你的处理逻辑是否让 CPU 等待 I/O——而不是 for 循环写在哪一层。

Python怎么做聚类分析_K-Means无监督算法实现与最佳K值选择方法

Python怎么装Jupyter_Jupyter Notebook安装与网页运行

Python如何配置系统变量_解决pip不是内部或外部命令报错

Python树状数组怎么用_单点修改与前缀和查询提速Python解法

Python怎么合并字典_多版本Python字典合并方法更新汇总

相关标签:

python js json 编码工具 csv 爬虫内存占用 json for while 封装字符串循环切片对象 bom 数据库 http

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python list 扩容机制与性能分析下一篇：Python 带参数装饰器的正确写法

作者最新文章

Nginx在Linux下利用epoll实现高效负载均衡分发

2026-03-15 12:14

JDK 安装包下载渠道与版本选择建议

2026-03-15 12:20

Java中Apache连接数统计工具在性能瓶颈分析中的应用

2026-03-15 12:31

Windows运维中利用GPO下发固定开始菜单磁贴布局文件

2026-03-15 12:43

Nginx静态资源服务HTML页面部署与根目录配置

2026-03-15 12:54

Linux IO调度器调优_IO策略实践

2026-03-15 13:08

Nginx利用root指令实现多环境静态资源切换

2026-03-15 13:22

Linux系统UID重复检查及隐藏账户非法创建排查

2026-03-15 13:25

IntelliJ IDEA Community 与 Ultimate 版区别

2026-03-15 13:35

GitHub 官网怎么注册账号？GitHub 注册流程与注意事项

2026-03-15 14:05

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

458

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

549

2023.08.23