Python Pandas 内存优化技巧

冷漠man

发布时间：2026-03-03 17:25:54

458人浏览过

来源于php中文网

原创

关键是从数据类型、读取方式和操作习惯三方面精简内存：用合适 dtype（如 category、int32）省 50%+ 内存；read_csv 时用 usecols、dtype、chunksize 控制加载；操作中避免隐式复制，及时 del + gc.collect() 释放。

python pandas 内存优化技巧

Python Pandas 处理大数据时容易内存爆满，关键不是换工具，而是从数据类型、读取方式和操作习惯三方面精简内存占用。

用对数据类型，省下 50% 以上内存

Pandas 默认用 int64、float64 和 object 类型读取数据，但很多列实际不需要这么“宽”。比如：ID 列可能只是 1~10000 的整数，用 int32 就够；类别字段（如省份、状态）用 category 类型可压缩 70%+ 内存；字符串列若重复值多，转 category 效果更明显。

检查每列 dtype 和内存占比：df.info(memory_usage='deep')
自动优化数值类型：pd.to_numeric(s, downcast='unsigned') 或 downcast='integer'
转换类别型字段：df['col'] = df['col'].astype('category')
对时间列优先用 datetime64[ns]，避免存成 object 字符串

读取阶段就控制内存，别等加载完再后悔

用 pd.read_csv() 时默认把所有行、所有列全读进内存。其实多数分析只需部分数据。

95Shop仿醉品商城

95Shop可以免费下载使用，是一款仿醉品商城网店系统，内置SEO优化，具有模块丰富、管理简洁直观，操作易用等特点，系统功能完整，运行速度较快，采用ASP.NET(C#)技术开发，配合SQL Serve2000数据库存储数据，运行环境为微软ASP.NET 2.0。95Shop官方网站定期开发新功能和维护升级。可以放心使用！安装运行方法 1、下载软件压缩包； 2、将下载的软件压缩包解压缩，得到we

下载

用 usecols 只读需要的列，跳过无用字段（如日志中的原始 JSON 字符串）
用 dtype 参数提前指定每列类型，防止 Pandas 自动推断成高内存类型
大文件分块读取：chunksize=10000，配合 for chunk in pd.read_csv(...) 流式处理
用 low_memory=False 避免混合类型警告导致的重复解析开销

操作中避免隐式复制，减少临时对象

看似简单的链式操作，可能在后台生成多个完整副本。比如 df[df['x']>0].copy().reset_index(drop=True) 至少创建 2 次拷贝。

立即学习“Python免费学习笔记（深入）”；

用 inplace=True 替代赋值（仅限支持该参数的方法，如 drop()、fillna()）
筛选后立即释放原 df 引用：df = df[df['x']>0]; del original_df
不用 df.assign() 做大量列计算，改用直接赋值或 loc 批量写入
合并前确认 key 列已设为 category 或数值型，避免 join 时升格为 object

用完就删，显式释放不用的数据

Python 垃圾回收不保证立刻释放，尤其在 Jupyter 中变量长期存在。主动清理很有效。

用 del df 删除大变量后，加 gc.collect() 强制回收（需 import gc）
Jupyter 中运行 %whos 查看当前变量大小，快速定位“内存大户”
中间结果及时写入磁盘（如 to_parquet()），后续用 read_parquet() 按需加载列
避免把整个原始 DataFrame 一直保留在全局作用域，封装成函数局部变量更易回收

Python集合底层结构_set哈希实现原理

Python处理HTTP异常_网络错误处理思路

Python字典合并最佳方式_update与解包对比

Python日期时间怎么处理_datetime模块详解

Python如何提高代码性能_性能分析与优化方法

相关标签:

python json pandas 数据类型 Integer Object for 封装局部变量字符串值类型 copy 对象作用域 jupyter

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python类初始化顺序_init执行流程解析下一篇：暂无

作者最新文章

ppt怎么插入素材模板_ PPT在线素材插入使用指南

2026-03-03 13:24

怎么查看电脑硬件设备

2026-03-03 13:48

Linuxiptables规则混乱_防火墙规则整理方法

2026-03-03 13:49

Adobe如何彻底卸载 Adobe官方清理工具使用

2026-03-03 14:04

Linux防火墙拦截请求_防火墙规则分析与修复

2026-03-03 14:28

Linux 源码编译安装软件步骤

2026-03-03 14:33

Linux源码编译失败_编译错误分析与解决

2026-03-03 14:39

怎么在微信群弄在线文档微信群协作文档指南

2026-03-03 14:50

Python接口超时处理_请求重试机制设计

2026-03-03 14:53

微信群聊人数上限500怎么设置微信群扩容详细步骤

2026-03-03 15:05

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

452

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

546

2023.08.23