0

0

pandas read_csv 读取大文件不爆内存的 5 种实用参数组合

舞姬之光

舞姬之光

发布时间:2026-01-20 08:12:09

|

723人浏览过

|

来源于php中文网

原创

用pandas.read_csv读取大文件时,应组合chunksize、usecols、dtype、low_memory=False等参数分块读取、只加载必要列、指定紧凑数据类型、避免类型推断错误,可显著降低内存占用。

pandas read_csv 读取大文件不爆内存的 5 种实用参数组合

pandas.read_csv 读取大文件时,内存爆掉很常见——但其实只要合理组合几个关键参数,就能把内存占用压到很低,甚至稳定读完几个 GB 的 CSV。核心思路是:不一次性加载全部数据、跳过无用列、控制数据类型、分块处理、延迟解析。

1. 用 chunksize 分块读取 + 迭代处理

这是最常用也最有效的降内存手段。设置 chunksize 后,read_csv 返回一个可迭代的 TextFileReader 对象,每次只载入一块(比如 10,000 行),处理完立即释放内存。

示例:

通义万相
通义万相

通义万相,一个不断进化的AI艺术创作大模型

下载
for chunk in pd.read_csv('big_file.csv', chunksize=10000):
    # 对每块做清洗、聚合、写入数据库等操作
    processed = chunk.dropna().groupby('category').sum()
    # 不要直接 pd.concat 所有 chunk!除非真需要全量 DataFrame
  • chunksize 值不是越大越好,建议从 5000–50000 试起,观察内存峰值
  • 避免在循环里累积 list.append(chunk)pd.concat,这会重新吃光内存
  • 适合流式处理:统计、过滤、导出子集、写入数据库/Parquet

2. 用 usecols 只读必要列

很多大 CSV 有几十上百列,但你真正用到的可能就 3–5 列。用 usecols 提前指定列名或列索引,pandas 就不会为其他列分配内存和解析器。

示例:

# 按列名选
df = pd.read_csv('big_file.csv', usecols=['id', 'user_id', 'amount', 'ts'])

按位置选(更快,尤其列数极多时)

df = pd.read_csv('big_file.csv', usecols=[0, 2, 5, 7])

  • 比读完再 df[['a','b']] 节省内存 30%–70%,越宽的文件收益越明显
  • 配合 dtype 使用效果更佳(见下条)
  • 如果列名含空格或特殊字符,优先用整数索引方式指定

3. 用 dtype 显式声明数据类型

pandas 默认把数字列当 float64、字符串当 object(即 Python str),非常吃内存。用 dtype 强制指定更紧凑的类型,能大幅减重。

示例:

dtypes = {
    'user_id': 'uint32',     # 比 int64 节省一半空间
    'status': 'category',    # 重复值多的字符串列首选
    'amount': 'float32',     # 精度够用就别用 float64
    'is_active': 'boolean'   # pandas 1.0+ 支持,比 object 轻得多
}

df = pd.read_csv('big_file.csv', usecols=['user_id','status','amount','is_active'], dtype=dtypes)

  • category 对低基数字符串(如状态、地区、分类)压缩率极高,常达 5–10 倍
  • 数值列优先用 int32/uint32float32,确认数据范围不溢出即可
  • 避免 object 类型——它是内存黑洞,尤其是长文本列,考虑用 str + low_memory=False 或提前 converters

4. 用 low_memory=False + dtype 避免类型推断错误

默认 low_memory=True 会让 pandas 分块推断每块的 dtype,再合并时可能报 dtype inconsistent 错误,还会触发额外内存拷贝。设为 False 后,pandas 一次性扫描首行+样本行确定 dtype,更稳定、更省内存(尤其配合显式 dtype)。

示例:

df = pd.read_csv(
    'big_file.csv',
    usecols=['user_id', 'score', 'tag'],
    dtype={'user_id': 'uint32', 'score': 'float32', 'tag': 'category'},
    low_memory=False
)
  • 必须和 dtype 配合使用才有意义;单独设 low_memory=False 可能更耗内存
  • 适用于列类型明确、且首几行能代表整体分布的文件
  • 若文件首行有脏数据(如空值、异常格式),可加 skiprows=1 或先用小样本来 infer_dtype

5. 用 skiprows / nrows + iterator 快速探查与采样

读大文件前,常需先看结构、统计、抽样。不用全读,用这几个参数快速获取信息:

  • nrows=10000:只读前 N 行,快速建模/调试
  • skiprows=lambda x: x % 100 != 0:按规则跳行,实现均匀抽样(如每 100 行取 1 行)
  • iterator=True(旧版,现推荐 chunksize):返回迭代器,适合手动控制

抽样示例(取约 1% 数据):

# 随机抽样(内存友好)
df_sample = pd.read_csv('big_file.csv', skiprows=lambda i: i > 0 and np.random.random() > 0.01)

或更稳的行号抽样(需预估总行数)

df_sample = pd.read_csv('big_file.csv', skiprows=lambda i: i % 100 != 0, nrows=10000)

  • 抽样分析阶段绝不调 read_csv(...) 无限制读取
  • head -n 1000 big_file.csv > sample.csv 配合 shell 更快(Linux/macOS)
  • 结合 usecols + dtype,抽样内存开销可压到 MB 级

不复杂但容易忽略:参数之间是协同生效的。单用 chunksize 不如 chunksize + usecols + dtype 组合;单设 dtype 也不如 dtype + low_memory=False 稳定。实际中建议从「usecols + dtype」起步,再按需加 chunksize 或 nrows 控制粒度。

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

765

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

640

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

764

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

619

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1305

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

549

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

709

2023.08.11

Java JVM 原理与性能调优实战
Java JVM 原理与性能调优实战

本专题系统讲解 Java 虚拟机(JVM)的核心工作原理与性能调优方法,包括 JVM 内存结构、对象创建与回收流程、垃圾回收器(Serial、CMS、G1、ZGC)对比分析、常见内存泄漏与性能瓶颈排查,以及 JVM 参数调优与监控工具(jstat、jmap、jvisualvm)的实战使用。通过真实案例,帮助学习者掌握 Java 应用在生产环境中的性能分析与优化能力。

0

2026.01.20

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 7.5万人学习

Git 教程
Git 教程

共21课时 | 2.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号