0

0

Pandas数据透视表:按半年间隔灵活分组聚合

心靈之曲

心靈之曲

发布时间:2025-10-24 13:44:41

|

837人浏览过

|

来源于php中文网

原创

Pandas数据透视表:按半年间隔灵活分组聚合

本文详细介绍了如何在pandas中创建按半年(6个月)间隔聚合的数据透视表,而非默认的按年或季度。通过结合使用`df.index.year`和`np.where`自定义月份区间,可以构建出灵活的多级索引,并进一步将这些索引转换为标准的日期时间格式,以满足更精细的数据分析和可视化需求。

在数据分析中,我们经常需要根据时间维度对数据进行聚合和汇总。Pandas的pivot_table函数是实现这一目标的强大工具。然而,当默认的按年、季度或月度聚合无法满足特定分析需求时,例如需要按半年(每6个月)进行分组时,就需要一些自定义的技巧。本教程将指导您如何实现这一目标。

1. 准备示例数据

首先,我们创建一个包含日期索引和随机数据的Pandas DataFrame,模拟日常数据。为了更好地演示,我们还会添加一个Vessel列,用于作为数据透视表的列。

import pandas as pd
import numpy as np

# 创建日期范围索引
date_rng = pd.date_range(start='2023-01-01', end='2024-01-05', freq='D')

# 创建随机数据
data = np.random.rand(len(date_rng), 3)
df = pd.DataFrame(data, columns=['Column1', 'Column2', 'Column3'], index=date_rng)

# 添加 'Vessel' 列,模拟分组维度
df['Vessel'] = np.random.randint(1, 5, size=len(date_rng))

print("原始DataFrame前5行:")
print(df.head())

2. 构建按半年间隔的自定义索引

pivot_table函数允许我们在index参数中传入一个列表,从而创建多级行索引。为了实现按半年分组,我们需要两部分信息:年份和半年标识(例如“H1”代表上半年,“H2”代表下半年)。

  • 年份: 可以直接通过 df.index.year 获取。
  • 半年标识: 我们可以利用 df.index.month 结合 np.where 函数来判断月份属于上半年(1-6月)还是下半年(7-12月)。
# 使用 np.where 创建半年标识
# 如果月份小于等于6,则为“H1”(上半年),否则为“H2”(下半年)
half_year_label = np.where(df.index.month <= 6, "H1", "H2")

# 将年份和半年标识组合成多级索引
custom_index = [df.index.year, half_year_label]

3. 创建按半年分组的数据透视表

有了自定义索引后,我们就可以将其传递给pd.pivot_table的index参数。同时,指定columns为Vessel,values为需要聚合的列,aggfunc为聚合函数(例如nunique计算唯一值数量)。

pivot_df = pd.pivot_table(
    df,
    index=custom_index,         # 使用自定义的年份和半年标识作为行索引
    columns='Vessel',           # 'Vessel' 作为列
    values=['Column1', 'Column2', 'Column3'], # 需要聚合的列
    aggfunc='nunique'           # 聚合函数:计算唯一值的数量
)

print("\n按半年分组的数据透视表:")
print(pivot_df)

输出结果将是一个多级索引的DataFrame,其中行索引的第一级是年份,第二级是半年标识(H1/H2),列索引的第一级是原始数据的列名,第二级是Vessel的值。

        Column1                   Column2                   Column3                  
Vessel        1     2     3     4       1     2     3     4       1     2     3     4
2023 H1    XX.0  XX.0  XX.0  XX.0    XX.0  XX.0  XX.0  XX.0    XX.0  XX.0  XX.0  XX.0
     H2    YY.0  YY.0  YY.0  YY.0    YY.0  YY.0  YY.0  YY.0    YY.0  YY.0  YY.0  YY.0
2024 H1     ZZ.0  ZZ.0   NaN  ZZ.0     ZZ.0  ZZ.0   NaN  ZZ.0     ZZ.0  ZZ.0   NaN  ZZ.0

注:XX, YY, ZZ 代表实际聚合后的数值。

Quinvio AI
Quinvio AI

AI辅助下快速创建视频,虚拟代言人

下载

4. 将索引转换为日期时间格式(可选)

虽然上述数据透视表已经实现了按半年分组,但其行索引仍是(年, 半年标识) 的元组形式。在某些情况下,例如进行时间序列分析或绘图时,我们可能希望将这些索引转换为标准的datetime对象,代表每个半年的起始日期。

我们可以遍历当前的行索引,根据年份和半年标识构建新的日期字符串,然后使用pd.to_datetime进行转换。

pivot_df.index = [
    pd.to_datetime(f'{year}-{"01-01" if half == "H1" else "07-01"}') # 注意H2是7月1日开始
    for year, half in pivot_df.index
]

print("\n索引转换为日期时间格式后的数据透视表:")
print(pivot_df)

现在,数据透视表的行索引将是datetime对象,更便于后续的时间序列操作。

           Column1                   Column2                   Column3                  
Vessel           1     2     3     4       1     2     3     4       1     2     3     4
2023-01-01    XX.0  XX.0  XX.0  XX.0    XX.0  XX.0  XX.0  XX.0    XX.0  XX.0  XX.0  XX.0
2023-07-01    YY.0  YY.0  YY.0  YY.0    YY.0  YY.0  YY.0  YY.0    YY.0  YY.0  YY.0  YY.0
2024-01-01     ZZ.0  ZZ.0   NaN  ZZ.0     ZZ.0  ZZ.0   NaN  ZZ.0     ZZ.0  ZZ.0   NaN  ZZ.0

总结与注意事项

  • 灵活性: 这种方法的核心在于利用np.where或自定义函数创建灵活的时间分组标识。您可以根据需要调整条件,实现任意长度的自定义时间间隔(例如,每3个月、每季度、甚至不规则的月份组合)。
  • 多级索引: pivot_table的index参数接受一个列表,这使得创建多级行索引变得非常方便,有助于在更细粒度上组织数据。
  • aggfunc选择: aggfunc参数非常灵活,可以接受字符串(如'mean', 'sum', 'count', 'nunique')、函数(如np.mean, np.sum)或函数列表。根据您的分析需求选择合适的聚合函数。
  • 索引转换: 将自定义的字符串/元组索引转换为datetime对象,可以极大地提高数据在时间序列分析和可视化方面的可用性。
  • 数据类型: 确保日期列的数据类型是datetime类型,否则无法使用.dt访问器。如果不是,请先使用pd.to_datetime()进行转换。

通过本教程,您应该能够熟练地在Pandas中创建按半年间隔分组的数据透视表,并根据需要将索引转换为标准的日期时间格式,从而更好地支持您的数据分析工作。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

54

2025.12.04

数据类型有哪几种
数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

307

2023.10.31

php数据类型
php数据类型

本专题整合了php数据类型相关内容,阅读专题下面的文章了解更多详细内容。

222

2025.10.31

counta和count的区别
counta和count的区别

Count函数用于计算指定范围内数字的个数,而CountA函数用于计算指定范围内非空单元格的个数。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

198

2023.11.20

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

278

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

212

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1491

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

621

2023.11.24

菜鸟裹裹入口以及教程汇总
菜鸟裹裹入口以及教程汇总

本专题整合了菜鸟裹裹入口地址及教程分享,阅读专题下面的文章了解更多详细内容。

0

2026.01.22

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
React 教程
React 教程

共58课时 | 4万人学习

Pandas 教程
Pandas 教程

共15课时 | 0.9万人学习

ASP 教程
ASP 教程

共34课时 | 3.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号