Python Pandas groupby 性能优化

冷炫風刃

发布时间：2026-02-26 19:45:11

297人浏览过

来源于php中文网

原创

pandas groupby变慢主因是默认行为导致冗余计算与隐式拷贝；优化需优先用agg指定列和函数、提前过滤投影、转category类型、设as_index=false和observed=true，超大数据改用dask/polars/duckdb。

python pandas groupby 性能优化

用 Pandas 的 groupby 处理大数据时变慢，通常不是因为“写法错”，而是默认行为在悄悄拖慢速度。优化核心是减少冗余计算、避免隐式拷贝、选对聚合方式。

优先用 `agg` 指定列和函数，别用 `apply`

apply 是万能但最慢的：它把每组转成 DataFrame 或 Series 再调用 Python 函数，触发解释器开销，且无法自动并行或向量化。
而 agg 能直接调用底层 Cython 实现的聚合（如 'sum'、'mean'、'size'），快 5–10 倍以上。

✅ 推荐：df.groupby('category').agg({'sales': 'sum', 'price': 'mean'})
❌ 避免：df.groupby('category').apply(lambda x: pd.Series({'sales_sum': x['sales'].sum(), 'price_mean': x['price'].mean()}))
⚠️ 注意：agg 支持元组命名、多函数（如 'sales': ['sum', 'count']），也支持自定义函数——但仅当函数本身可被向量化（如用 NumPy 运算）时才不掉速。

提前过滤、投影列，别让 groupby 处理无关数据

Groupby 前若不筛选，Pandas 仍会为所有列分配内存、做索引对齐、甚至复制整块数据。尤其含字符串、对象列或大数组时，开销剧增。

XAnswer

XAnswer是一款可以生成思维导图的AI搜索工具，聚合全网优质信息源，结合LLM能力和RAG技术，为用户提供实时性的搜索结果、个性化的答案呈现。

下载

先选关键列：df[['category', 'sales', 'date']].groupby('category').sum()，比全量 df.groupby(...) 快得多
提前过滤再分组：df[df['date'] >= '2023-01-01'].groupby('category').sum()，比先 groupby 再用 filter 或布尔索引子集高效
字符串列尽量转为 category 类型：df['category'] = df['category'].astype('category')，分组键哈希和比较更快

善用 `as_index=False` 和 `observed=True`

默认 groupby 返回以分组列为索引的 DataFrame，后续操作（如合并、导出）常需 reset_index()，这是一次额外拷贝。
observed=True 则只对实际出现的分类值分组（跳过未出现的 category），大幅减少分组数——尤其配合 astype('category') 时效果明显。

立即学习“Python免费学习笔记（深入）”；

一步到位：df.groupby('category', as_index=False, observed=True).sum()
对比：未设 as_index=False 时，.sum().reset_index() 多一次深拷贝；未设 observed=True 且列是 category 类型时，可能生成数千个空组

超大数据？考虑替代方案

单机 Pandas 的 groupby 本质是单线程+内存全载。当数据远超内存或行数破亿，继续硬扛效率低、易 OOM。

用 dask.dataframe：API 兼容 Pandas，自动分块+延迟计算，适合多核/多机扩展
用 polars：Rust 编写，lazy mode + 并行执行，同逻辑下常比 Pandas 快 3–8 倍，语法也接近
简单统计可导出后交由 SQL（如 DuckDB）：duckdb.query("SELECT category, SUM(sales) FROM df GROUP BY category")，C++ 引擎 + 列存优化，小数据也极快

如何在多文件 Tkinter 项目中正确管理模块导入

Python 文件锁实现方法解析

Python 进程池 ProcessPoolExecutor 原理

Python 生产环境性能优化案例

Python 类属性中为何不能用与外部类同名的名称定义带默认值的联合类型？

数码产品性能查询

该软件包括了市面上所有手机CPU，手机跑分情况，电脑CPU，电脑产品信息等等，方便需要大家查阅数码产品最新情况，了解产品特性，能够进行对比选择最具性价比的商品。

下载

相关标签:

python rust sql numpy pandas count select date Filter 字符串 Lambda 线程对象性能优化

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python session 与 cookie 区别解析下一篇：Python 生产环境日志设计最佳实践

作者最新文章

苹果手机id号怎么创建苹果手机申请ID账号方法

2026-02-26 08:10

华为荣耀怎么传数据手机数据传输与备份教程

2026-02-26 08:17

Linux systemd-homed 的用户主目录加密与可移植性优势

2026-02-26 08:22

苹果手机文件怎么上传苹果手机文件上传操作教程

2026-02-26 08:26

华为手机价格一览表大全华为各系列机型价格汇总

2026-02-26 08:43

苹果手机id怎么设置新的苹果手机创建新Apple ID步骤

2026-02-26 08:46

oppo手机截屏功能在哪里设置手势与按键截图路径

2026-02-26 09:45

oppo手机截屏怎么截 OPPO截图组合键说明

2026-02-26 10:08

IQOO手机官网登录入口 IQOO官网登录及服务入口

2026-02-26 10:33

7723游戏盒安装正版入口_7723游戏盒正版手机版免费下载入口

2026-02-26 10:44

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

C++系统编程内存管理_C++系统编程怎么与Rust竞争内存安全

C++系统编程中的内存管理是指对程序运行时内存的申请、使用和释放进行精细控制的机制，涵盖了栈、堆、静态区等不同区域，开发者需要通过new/delete、智能指针或内存池等方式管理动态内存，以避免内存泄漏、野指针等问题，确保程序高效稳定运行。它核心在于开发者对低层内存有完全控制权，带来灵活性，但也伴随高责任，是C++性能优化的关键。

2025.12.22

Rust异步编程与Tokio运行时实战

本专题聚焦 Rust 语言的异步编程模型，深入讲解 async/await 机制与 Tokio 运行时的核心原理。内容包括异步任务调度、Future 执行模型、并发安全、网络 IO 编程以及高并发场景下的性能优化。通过实战示例，帮助开发者使用 Rust 构建高性能、低延迟的后端服务与网络应用。

2026.02.11

数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍：1、Excel，具有强大的计算和数据处理功能；2、SQL，可以进行数据查询、过滤、排序、聚合等操作；3、Python，拥有丰富的数据分析库；4、R，拥有丰富的统计分析库和图形库；5、Tableau，提供了直观易用的用户界面等等。

1047

2023.10.12