0

0

合并Pandas groupby聚合结果并进行分组条形图可视化

心靈之曲

心靈之曲

发布时间:2025-10-05 12:11:33

|

932人浏览过

|

来源于php中文网

原创

合并Pandas groupby聚合结果并进行分组条形图可视化

本教程详细介绍了如何将Pandas groupby操作生成的不同聚合结果(如平均值和总和)合并到同一张图表中进行可视化。通过先将聚合后的数据框合并,然后利用Matplotlib的bar或barh函数,可以实现对复杂分组数据的多指标对比分析,有效解决直接链式调用绘图函数无法实现分组对比的问题。

在数据分析过程中,我们经常需要对数据集进行分组聚合,并对比同一分组下不同聚合指标的表现。例如,我们可能需要同时比较某个类别群体的平均值和总和。虽然pandas提供了便捷的groupby().plot.barh()方法,但它通常用于绘制单个聚合指标的图表。当我们需要在同一图表中并排展示多个聚合指标时,就需要更灵活的绘图策略。

挑战:直接绘制多个聚合结果

考虑以下两种独立的聚合操作,它们分别计算了不同维度组合下的cnt(计数)的平均值和总和:

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

# 假设 day_df 是您的原始DataFrame,包含 'yr', 'season', 'weathersit', 'cnt' 等列
# 为了示例,我们创建一个模拟的 day_df
data = {
    'yr': [0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1],
    'season': [1, 1, 2, 2, 1, 1, 2, 2, 1, 1, 2, 2, 1, 1, 2, 2],
    'weathersit': [1, 2, 1, 2, 1, 2, 1, 2, 1, 2, 1, 2, 1, 2, 1, 2],
    'cnt': [100, 150, 200, 250, 300, 350, 400, 450, 110, 160, 210, 260, 310, 360, 410, 460]
}
day_df = pd.DataFrame(data)

# 单独的聚合和绘图尝试
# day_df.groupby(by=["yr", "season", "weathersit"]).agg({"cnt": "sum"}).plot.barh()
# day_df.groupby(by=["yr", "season", "weathersit"]).agg({"cnt": "mean"}).plot.barh()

直接对这两个聚合结果分别调用.plot.barh()会生成两张独立的图表,无法进行直观的并排比较。尝试手动使用plt.bar函数,但如果数据准备不当,例如直接从多级索引的DataFrame中提取列,会导致索引错位或数据无法匹配的问题。

解决方案:合并聚合数据框并使用Matplotlib绘图

解决此问题的核心在于:首先将不同聚合指标的数据整合到一个统一的DataFrame中,然后利用Matplotlib的灵活性来绘制分组条形图。

1. 数据准备:聚合与合并

首先,我们需要对原始数据进行两次聚合,分别计算所需的指标(例如,总和和平均值),并将结果转换为普通的DataFrame,以便后续合并。reset_index()在此步骤中至关重要,它将多级索引转换为普通列,使得数据框可以基于这些列进行合并。

# 计算平均值并重置索引
day_mean_dataframe = day_df.groupby(by=["yr", "season", "weathersit"]).agg({"cnt": "mean"}).reset_index()

# 计算总和并重置索引
day_sum_dataframe = day_df.groupby(by=["yr", "season", "weathersit"]).agg({"cnt": "sum"}).reset_index()

# 合并数据框
# 使用 `on` 参数指定合并键,`suffixes` 参数处理同名列的后缀
merged_df = pd.merge(day_mean_dataframe, day_sum_dataframe, on=["yr", "season", "weathersit"], suffixes=('_mean', '_sum'))

print("合并后的数据框 (merged_df):")
print(merged_df)

merged_df现在包含了每个分组的平均值(cnt_mean)和总和(cnt_sum),为后续的统一绘图奠定了基础。

Remover
Remover

几秒钟去除图中不需要的元素

下载

2. 绘制分组条形图(垂直方向)

使用Matplotlib的plt.subplots创建图表和坐标轴对象,然后利用ax.bar函数绘制分组条形图。关键在于为不同指标的条形图设置不同的x轴位置偏移量,使其并排显示。

# 创建图表和坐标轴对象
fig, ax = plt.subplots(figsize=(14, 7)) # 调整图表大小以适应更多标签

# 计算每个分组的条形图的基准位置
r1 = np.arange(len(merged_df))
width = 0.35 # 条形图的宽度

# 绘制平均值条形图
ax.bar(r1 - width/2, merged_df["cnt_mean"], width=width, label='平均值', color='skyblue')

# 绘制总和条形图,并向右偏移
ax.bar(r1 + width/2, merged_df["cnt_sum"], width=width, label='总和', color='lightcoral')

# 设置x轴刻度标签
# 将多级分组键组合成一个字符串作为标签
ax.set_xticks(r1)
ax.set_xticklabels([f'年:{row.yr}, 季:{row.season}, 天气:{row.weathersit}' for _, row in merged_df.iterrows()], rotation=45, ha='right')

# 添加图例和标题
ax.legend()
ax.set_xlabel('分组')
ax.set_ylabel('计数')
ax.set_title('各分组计数平均值与总和对比 (垂直条形图)')
plt.tight_layout() # 调整布局以避免标签重叠
plt.show()

3. 绘制分组条形图(水平方向)

对于分组标签较长或分组数量较多的情况,水平条形图(ax.barh)通常能提供更好的可读性。其原理与垂直条形图类似,只是交换了x轴和y轴的角色。

# 创建图表和坐标轴对象
fig, ax = plt.subplots(figsize=(14, 8)) # 调整图表大小

# 计算每个分组的条形图的基准位置
r1 = np.arange(len(merged_df))
height = 0.35 # 条形图的高度

# 绘制平均值条形图
ax.barh(r1 - height/2, merged_df["cnt_mean"], height=height, label='平均值', color='skyblue')

# 绘制总和条形图,并向上偏移
ax.barh(r1 + height/2, merged_df["cnt_sum"], height=height, label='总和', color='lightcoral')

# 设置y轴刻度标签
ax.set_yticks(r1)
ax.set_yticklabels([f'年:{row.yr}, 季:{row.season}, 天气:{row.weathersit}' for _, row in merged_df.iterrows()])

# 添加图例和标题
ax.legend()
ax.set_xlabel('计数')
ax.set_ylabel('分组')
ax.set_title('各分组计数平均值与总和对比 (水平条形图)')
plt.tight_layout() # 调整布局
plt.show()

注意事项与最佳实践

  1. reset_index() 的重要性:在groupby().agg()之后,结果通常是一个多级索引的Series或DataFrame。reset_index()将其转换为普通的DataFrame,并将索引级别转换为常规列,这对于后续的pd.merge()操作至关重要。
  2. suffixes 参数:在pd.merge()中,如果两个DataFrame有同名的非合并列,suffixes参数可以为这些列添加不同的后缀,避免列名冲突,例如cnt_mean和cnt_sum。
  3. 标签处理:当分组键包含多个维度时,如yr, season, weathersit,需要手动将它们组合成一个有意义的字符串作为刻度标签,以提高可读性。rotation和ha(horizontal alignment)参数可以帮助调整长标签的显示。
  4. 图表尺寸与布局:使用figsize调整图表大小,特别是当分组数量较多或标签较长时。plt.tight_layout()可以自动调整子图参数,使之填充整个图表区域,避免标签重叠。
  5. 颜色和图例:合理使用颜色区分不同的指标,并添加清晰的图例,有助于读者理解图表内容。
  6. 选择条形图方向
    • 垂直条形图 (ax.bar) 适用于分组数量较少、分组标签较短的情况。
    • 水平条形图 (ax.barh) 适用于分组数量较多、分组标签较长的情况,可以有效避免标签重叠,提高可读性。

总结

通过将Pandas的groupby聚合结果与pd.merge相结合,我们能够有效地整合来自不同聚合操作的数据。随后,利用Matplotlib提供的强大绘图功能,我们可以灵活地创建分组条形图,无论是垂直还是水平方向,都能清晰地展示多指标在同一分组下的对比情况。这种方法不仅解决了直接链式绘图的局限性,也为更复杂的数据可视化提供了坚实的基础。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

51

2025.12.04

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

258

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

208

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1465

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

619

2023.11.24

java读取文件转成字符串的方法
java读取文件转成字符串的方法

Java8引入了新的文件I/O API,使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java,可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中,你需要将文件路径替换为你的实际文件路径,并且可能需要处理可能的IOException异常。想了解更多java的相关内容,可以阅读本专题下面的文章。

550

2024.03.22

php中定义字符串的方式
php中定义字符串的方式

php中定义字符串的方式:单引号;双引号;heredoc语法等等。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

545

2024.04.29

go语言字符串相关教程
go语言字符串相关教程

本专题整合了go语言字符串相关教程,阅读专题下面的文章了解更多详细内容。

162

2025.07.29

高德地图升级方法汇总
高德地图升级方法汇总

本专题整合了高德地图升级相关教程,阅读专题下面的文章了解更多详细内容。

72

2026.01.16

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 7.4万人学习

Django 教程
Django 教程

共28课时 | 3.2万人学习

Excel 教程
Excel 教程

共162课时 | 12.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号