Python怎么读CSV数据_Pandas读取大规模CSV文件及分块节约内存技巧

P粉602998670

发布时间：2026-03-12 04:25:15

374人浏览过

来源于php中文网

原创

read_csv内存爆炸主因是默认全量加载+自动类型推断；应通过usecols选列、dtype降级、chunksize分块处理并及时释放内存、encoding防bom错位来优化。

python怎么读csv数据_pandas读取大规模csv文件及分块节约内存技巧

read_csv 为什么一加载就内存爆炸

不是 read_csv 本身有问题，是它默认把整张表全读进内存，还自动推断每列类型——对上 G 的 CSV，这等于直接申请几倍于文件体积的 RAM。尤其当存在长文本、混合类型或缺失值多的列时，pandas 默认用 object 类型存字符串，内存占用飙升得比文件尺寸还快。

实操建议：

立即学习“Python免费学习笔记（深入）”；

先用系统命令粗略看文件大小和行数：head -n 5 data.csv 看结构，wc -l data.csv 看总行数
强制指定列类型：比如知道某列全是整数，就加 dtype={'user_id': 'int32'}，避免默认升到 int64 或退化为 object
跳过无用列：用 usecols 只读需要的字段，例如 usecols=['order_id', 'amount', 'ts']
禁用类型推断：加上 low_memory=False（仅在明确列类型一致时用），否则分块推断会反复报 DtypeWarning

chunksize 不是“开个开关”就能省内存

chunksize 参数本质是返回一个 TextFileReader 迭代器，每次 next() 或用 for 循环才载入一块数据——但它不会自动帮你释放前一块内存。如果在循环里不断 pd.concat() 或往列表里 .append()，内存照样涨满。

实操建议：

立即学习“Python免费学习笔记（深入）”；

每块处理完立刻丢弃引用：不要累积 chunks = []，而是 for chunk in pd.read_csv('x.csv', chunksize=10000): process(chunk)
写入中间结果优先选磁盘：比如用 chunk.to_parquet(f'part_{i}.parq')，别攒成大 DataFrame 再统一存
注意 chunksize 不是越大越好：设成 50000 可能单块就占 1GB，反而触发频繁 GC；从 5000–20000 试起，观察 RSS 增长曲线
分块后索引不连续：chunk.index 每次都从 0 开始，如需全局序号，用 chunk.index + i * chunksize 手动算

内存不够时，dtype 要手动“砍”得狠一点

pandas 对数值列默认用 float64 和 int64，但真实业务数据往往用不到那么高精度。比如用户 ID 是 10 位以内整数，用 uint32 就够；金额保留两位小数，float32 足够且省一半内存；分类字段不超过 256 个取值，category 类型能压缩 5–10 倍。

免费语音克隆

这是一个提供免费语音克隆服务的平台，用户只需上传或录制一段 5 秒以上的清晰语音样本，平台即可生成与用户声音高度一致的 AI 语音克隆。

下载

实操建议：

立即学习“Python免费学习笔记（深入）”；

数值列降级：用 dtype={'price': 'float32', 'qty': 'uint16'}，注意 uint16 上限是 65535，超了会 wrap around
字符串列转 category：仅适用于重复值 >10% 的列，dtype={'city': 'category'}，但后续不能直接 .str.upper()
空值处理要同步：若某列有缺失，int 类型无法表示，得改用 Int64（首字母大写）或 float32，否则读取时报 ValueError: Integer column has NA values
日期列别偷懒：用 parse_dates=['ts'] + date_parser 指定格式，比默认推断快且省内存

read_csv 的 skiprows 和 nrows 容易误用

skiprows 和 nrows 看似简单，但组合使用时行为反直觉：比如 skiprows=100, nrows=50，实际跳过前 100 行后读 50 行，而不是“从第 100 行开始读 50 行”。更麻烦的是，如果文件带 BOM 或编码异常，skiprows 可能错位，导致列对不齐。

实操建议：

立即学习“Python免费学习笔记（深入）”；

调试时先用 skiprows + nrows=10 快速验逻辑，别一上来就跑全量
跳过注释行要用 comment='#'，别靠 skiprows 数行数，否则新增注释就崩
真要按行号切片（比如只读第 10000–15000 行），得先用 Python 原生 open() 配合 itertools.islice 提前截出片段，再喂给 pd.read_csv(StringIO(chunk))
nrows 对性能影响小，但 skiprows 越大越慢——因为 pandas 还是得逐行扫描过去，只是不解析

最常被忽略的一点：编码问题会彻底破坏分块逻辑。比如 UTF-8 with BOM 文件，第一块可能多读一个 \ufeff 字符，导致列名错位，后续所有 dtype 和 usecols 全失效。遇到乱码或列数对不上，第一反应不是调参数，是加 encoding='utf-8-sig'。

如何在Python中将两个循环合并以基于前一个循环结果持续执行计算

Python如何做服务监控_监控指标设计

Python怎么自动整理桌面_按文件常见扩展名自动分类并移动整理到对应归档目录

如何用 NumPy 高效按标签分组拆分数组

Python怎么读取XML文件_xml.etree.ElementTree节点遍历

相关标签:

python pandas Integer Object for 字符串 int 循环 float32 切片 append bom column

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python垃圾回收源码解析_GC实现流程下一篇：暂无

作者最新文章

CSS如何实现背景色跟随定位元素移动_通过JS监听坐标并同步css变量颜色

2026-03-11 16:15

如何使用javap命令反编译.class文件_阅读底层字节码指令的入门基础

2026-03-11 16:15

如何在Golang中配置Content Security Policy安全头 Go语言Web安全CSP防护

2026-03-11 16:15

如何在Golang中利用反射实现简单的序列化工具 Go语言对象转字节流

2026-03-11 16:17

CSS如何避免因引入过多样式导致内存溢出_通过工具检测并删除未使用的无用CSS

2026-03-11 16:17

如何在GridFS中对特定业务线的数据设置不同的访问控制

2026-03-11 16:18

如何在Golang中配置私有Git仓库访问权限 Go语言GOPRIVATE环境变量设置

2026-03-11 16:19

如何在Golang中管理数据库迁移Migration Go语言Golang-Migrate在CI中应用

2026-03-11 16:19

如何在Golang中应用中介者模式实现聊天室广播 Go语言并发消息路由

2026-03-11 16:20

Golang中的代码覆盖率对性能压测的影响 Go语言测试与性能的平衡

2026-03-11 16:20

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

760

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

221

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1566

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

649

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

1228

2024.03.22

php中定义字符串的方式

php中定义字符串的方式：单引号；双引号；heredoc语法等等。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

1184

2024.04.29

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

热门下载

网站特效

网站源码

网站素材

前端模板