应优先使用 for line in f: 迭代文件对象,它内存恒定、最 Pythonic;read() 适合小文件全文处理;readlines() 仅在需随机访问行时使用;务必显式指定 encoding 并注意换行符差异。

read() 一次性读全部内容,适合小文件
当文件不大(比如几 MB 以内),read() 最直接:它把整个文件当做一个字符串返回,换行符 \n 也原样保留。你不需要额外处理行边界,适合做全文搜索、正则匹配或一次性解析。
常见错误是用 read() 处理大日志文件——内存会瞬间飙高,甚至 OOM。Python 不会自动流式读取,它真的一口吞。
- 返回类型是
str,不是列表;想按行处理得自己.split('\n'),但注意空行和末尾换行会影响结果 - 如果文件含 BOM(如 UTF-8 with BOM),
read()会把\ufeff开头一起读进来,可能干扰后续判断 - 编码错误时抛
UnicodeDecodeError,务必显式指定encoding='utf-8',别依赖默认
readlines() 按行读成列表,注意末尾换行符没去掉
readlines() 把每行(包括结尾的 \n)作为独立字符串放进列表,返回 list[str]。它比 read() 省一点内存(仍是一次性加载),但更贴近“逐行处理”的直觉。
容易踩的坑是以为它自动 .strip() ——其实不会。你遍历时看到的每行末尾都带着 \n,直接拼接或比较会出错。
立即学习“Python免费学习笔记(深入)”;
- 空文件返回空列表
[],不是None,可安全用for line in f.readlines(): - 最后一行没换行符?那它也不会补,和
read()行为一致 - Windows 和 Linux 换行符不同(
\r\nvs\n),readlines()都保留原样,跨平台处理要小心
真正该用 for line in f: 的场景
90% 的“按行处理”需求,根本不用 read() 或 readlines()。直接迭代文件对象最省内存、最 Pythonic:
- 它逐行读取、生成器式 yield,内存占用恒定,哪怕 10GB 日志也能跑
- 每行末尾
\n还在,但你可以随时line.rstrip('\n\r')去掉,比readlines()后统一处理更灵活 - 遇到异常(如编码错误)能立刻中断,而
readlines()可能卡在中间某行失败,前面内容已丢 - 示例:
with open('data.txt', encoding='utf-8') as f:<br> for line in f:<br> if line.strip(): # 跳过空行<br> process(line)
编码和换行符不一致时的典型报错
读取失败往往不是方法选错,而是编码/换行预期不匹配。比如用 utf-8 打开 GBK 编码的文件,会报 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc4 in position 0;而 Windows 生成的文件若用 open(..., newline='') 忽略换行标准化,csv.reader 可能误判字段。
- 先用命令行快速看编码:
file -i data.txt(Linux/macOS)或chcp+ 记事本另存为确认 - 不确定时加
errors='ignore'或errors='replace'避免崩溃,但会丢数据 - 写脚本处理多来源 TXT 时,别硬写死
encoding,考虑用chardet库先探测
实际用哪个,取决于你下一步怎么处理内容。想全文匹配就 read();需要索引某一行(比如第 5 行)才用 readlines();其余情况,默认用 for line in f: 就对了。编码和换行符这些细节,比方法名更容易让程序静默出错。










