0

0

groupby怎么按多列分组 groupby多字段统计用法【教程】

米爾特

米爾特

发布时间:2026-02-09 18:04:11

|

652人浏览过

|

来源于php中文网

原创

Pandas多列分组需用列表传入groupby,生成MultiIndex;as_index=False可保留分组列为普通列;agg()支持按列指定不同聚合函数;分组后应先选列再聚合以避免报错;transform()可将组大小广播为新列。

groupby怎么按多列分组 groupby多字段统计用法【教程】 - php中文网

如果您在使用Pandas进行数据聚合时,发现单列分组无法满足分析维度需求,则可能是由于需要同时依据多个业务字段划分数据子集。以下是实现groupby多列分组与多字段统计的具体操作步骤:

一、基础多列分组语法与索引行为

groupby支持将列表形式的多个列名作为分组键,生成多级索引(MultiIndex)结构;默认情况下,分组列会脱离原DataFrame成为行索引,便于后续按层级检索。

1、构造含多列的数据示例:
df = pd.DataFrame({'A': ['foo', 'foo', 'bar', 'bar'], 'B': ['one', 'two', 'one', 'two'], 'C': [1, 2, 3, 4], 'D': [5, 6, 7, 8]})

2、执行双列分组:
result = df.groupby(['A', 'B'])

3、验证分组对象类型:
print(type(result)) 输出

4、查看分组键结构:
print(result.groups) 可见键为元组如 ('foo', 'one')

二、保留分组列为普通列而非索引

当输出需直接用于导出或可视化时,as_index=False参数可避免生成MultiIndex,使分组列保留在结果DataFrame中作为常规列。

1、启用as_index=False参数:
result_flat = df.groupby(['A', 'B'], as_index=False).sum()

2、检查输出结构:
result_flat.columns 显示为 Index(['A', 'B', 'C', 'D']),无层级索引

3、对比默认行为:
df.groupby(['A', 'B']).sum().index 类型为 MultiIndex

三、对不同列应用不同聚合函数

多字段统计常需差异化处理:例如对数值列求和、对另一列计数、对日期列取最大值。agg()方法支持字典映射方式精准指定各列聚合逻辑。

1、定义聚合规则字典:
agg_dict = {'C': 'sum', 'D': ['mean', 'count']}

WHEE
WHEE

WHEE是一款AI绘画与图片生成器,提供一站式AI视觉创作服务。WHEE不仅会画也会修图,各种AI修图功能一应俱全。

下载

2、执行混合聚合:
result_mixed = df.groupby(['A', 'B']).agg(agg_dict)

3、观察列名变化:
result_mixed.columns 生成多级列索引:('C', 'sum'), ('D', 'mean'), ('D', 'count')

4、展平列名(可选):
result_mixed.columns = ['_'.join(col).strip() for col in result_mixed.columns.values]

四、分组后仅统计指定子集列

为提升计算效率并规避非数值列报错,应在分组后立即筛选目标列再聚合,而非对整个DataFrame调用聚合函数。

1、先选列再分组聚合:
subset_result = df.groupby(['A', 'B'])[['C']].sum()

2、验证数据类型安全:
df.groupby(['A', 'B'])[['C', 'D']].sum() 不会因B列非数值而报错

3、对比全表聚合风险:
df.groupby(['A', 'B']).sum() 将自动排除B列(字符串),但可能掩盖预期外的列丢失

五、获取每组行数并附加为新列

业务中常需同步返回各分组样本量,size()或count()可满足该需求;transform()方法能将标量结果广播回原始形状,适用于添加统计列。

1、使用transform添加计数列:
df['group_size'] = df.groupby(['A', 'B'])['C'].transform('size')

2、验证新增列一致性:
df[df['A']=='foo']['group_size'].nunique() == 1 表明同组内值完全相同

3、替代方案(仅返回汇总表):
size_only = df.groupby(['A', 'B']).size().reset_index(name='count')

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

73

2025.12.04

Python 数据清洗与预处理实战
Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术,包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换,结合 NumPy 高效处理大规模数据。通过实战案例,帮助学习者掌握 如何处理混乱、不完整数据,为后续数据分析与机器学习模型训练打下坚实基础。

3

2026.01.31

python中print函数的用法
python中print函数的用法

python中print函数的语法是“print(value1, value2, ..., sep=' ', end=' ', file=sys.stdout, flush=False)”。本专题为大家提供print相关的文章、下载、课程内容,供大家免费下载体验。

191

2023.09.27

python print用法与作用
python print用法与作用

本专题整合了python print的用法、作用、函数功能相关内容,阅读专题下面的文章了解更多详细教程。

11

2026.02.03

数据类型有哪几种
数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

310

2023.10.31

php数据类型
php数据类型

本专题整合了php数据类型相关内容,阅读专题下面的文章了解更多详细内容。

222

2025.10.31

counta和count的区别
counta和count的区别

Count函数用于计算指定范围内数字的个数,而CountA函数用于计算指定范围内非空单元格的个数。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

198

2023.11.20

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

464

2023.08.03

Golang处理数据库错误教程合集
Golang处理数据库错误教程合集

本专题整合了Golang数据库错误处理方法、技巧、管理策略相关内容,阅读专题下面的文章了解更多详细内容。

132

2026.02.06

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号