0

0

如何显著加速 Pandas 中基于时间窗口的分组滚动均值计算?

花韻仙語

花韻仙語

发布时间:2026-01-28 13:34:04

|

505人浏览过

|

来源于php中文网

原创

如何显著加速 Pandas 中基于时间窗口的分组滚动均值计算?

本文介绍一种比传统 `groupby().apply(rolling())` 快约 15 倍的替代方案,通过重构索引与预聚合滚动计算,大幅提升大规模时序分组滚动均值(如 180 天窗口)的执行效率。

在处理高频时序分组分析任务(如赛马数据中按“马匹+练马师”组合统计过去 180 天的平均积分)时,Pandas 默认的链式写法虽然语义清晰,但性能瓶颈明显:

# ❌ 原始低效写法(约 18.5 秒 / 10 万行)
df['HorseRaceCount90d'] = (
    df.groupby(['Horse', 'Trainer'], group_keys=False)
      .apply(lambda x: x.rolling(window='180D', on='RaceDate')['Points'].mean())
)

该方式对每个分组单独执行 rolling(..., on='RaceDate'),触发大量重复索引对齐与时间窗口判定,且 apply 无法被 Pandas 底层向量化优化,导致严重性能衰减。

✅ 更优解:先设索引 → 分组滚动 → 合并回原表
核心思路是将时间列设为索引,使 rolling('180D') 直接作用于 DatetimeIndex,避免每次调用都解析 on= 参数;再利用 groupby(...)['Points'].rolling(...).mean() 的原生高效实现,最后通过三键(Horse, Trainer, RaceDate)精准合并结果:

# ✅ 高效写法(约 1.18 秒 / 10 万行,提速 15×)
rolling_result = (
    df.set_index('RaceDate')                    # 关键:以时间列为索引
      .groupby(['Horse', 'Trainer'])['Points']  # 按业务维度分组
      .rolling('180D')                          # 原生支持时间字符串窗口
      .mean()                                   # 向量化滚动均值
      .rename('HorseRaceCount90d')              # 命名结果列
)

# 通过 Horse + Trainer + RaceDate 三字段精确匹配合并(确保时序对齐)
df = df.merge(
    rolling_result,
    left_on=['Horse', 'Trainer', 'RaceDate'],
    right_index=True,
    how='left'
)

⚠️ 注意事项:

比格设计
比格设计

比格设计是135编辑器旗下一款一站式、多场景、智能化的在线图片编辑器

下载
  • set_index('RaceDate') 前务必确认 RaceDate 已为 datetime64[ns] 类型(可用 pd.to_datetime() 强制转换);
  • merge 时必须包含全部分组键(Horse, Trainer)和时间戳(RaceDate),否则可能因索引重复或错位导致 NaN 或数据错乱;
  • 若原始数据存在同一 (Horse, Trainer, RaceDate) 多条记录(如多场同日赛事),需提前去重或聚合,否则 merge 可能产生笛卡尔膨胀;
  • 此方法天然支持 min_periods=1(默认行为),如需严格要求满窗才计算,可追加 .rolling('180D', min_periods=180),但注意天数精度受实际日期密度影响。

? 扩展建议:
若需批量计算多个时间窗口(如 30D/90D/180D),可封装为函数复用索引结构;对于超大规模数据(千万级+),建议结合 dask.dataframe 或 polars 进一步加速——后者在同类滚动操作中通常比 Pandas 再快 2–5 倍。

总之,避开 apply、善用索引驱动的原生 rolling、精准 merge 回填,是优化 Pandas 时间感知分组滚动计算的黄金三角。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

82

2025.12.04

Python 数据清洗与预处理实战
Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术,包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换,结合 NumPy 高效处理大规模数据。通过实战案例,帮助学习者掌握 如何处理混乱、不完整数据,为后续数据分析与机器学习模型训练打下坚实基础。

34

2026.01.31

抖漫入口地址合集
抖漫入口地址合集

本专题整合了抖漫入口地址相关合集,阅读专题下面的文章了解更多详细地址。

1

2026.03.17

多环境下的 Nginx 安装、结构与运维实战
多环境下的 Nginx 安装、结构与运维实战

本专题聚焦多环境下Nginx实战,详解开发、测试及生产环境的差异化安装策略与目录结构规划。深入剖析配置模块化设计、灰度发布流程及跨环境同步机制。结合监控告警、故障排查与自动化运维工具,提供全链路管理方案,助力团队构建灵活、高可用的Nginx服务体系,从容应对复杂业务场景挑战。

0

2026.03.17

PS 批量添加图片
PS 批量添加图片

本专题整合了PS批量添加图片教程合集,阅读专题下面的文章了解更多详细操作。

0

2026.03.17

Nginx 基础架构:从安装配置到系统化管理
Nginx 基础架构:从安装配置到系统化管理

本专题深入解析Nginx基础架构,涵盖从源码编译与包管理安装,到核心配置文件优化及虚拟主机部署。进一步探讨日志轮转、性能调优、高可用集群构建及自动化运维策略,助力管理员实现从单一服务搭建到企业级系统化管理的全面升级,确保Web服务高效、稳定运行。

1

2026.03.17

mulerun骡子快跑入口地址汇总
mulerun骡子快跑入口地址汇总

本专题整合了mulerun入口地址合集,阅读专题下面的文章了解更多详细内容。

36

2026.03.17

源码编译安装Nginx详解:模块选择、依赖准备与常见错误排查
源码编译安装Nginx详解:模块选择、依赖准备与常见错误排查

本专题详解Nginx源码编译全流程:从GCC、OpenSSL等依赖准备,到按需定制HTTP/SSL/流媒体模块的configure参数策略。深入剖析“缺少库文件”、“配置选项冲突”及“权限错误”等常见报错,提供精准排查思路与解决方案。助您掌握灵活构建高性能、定制化Nginx的核心技能,满足复杂生产环境需求。

1

2026.03.17

Linux环境安装Nginx全流程:apt、yum与源码编译方式深度实操
Linux环境安装Nginx全流程:apt、yum与源码编译方式深度实操

本专题深度实操Linux下Nginx三大安装方式:apt/yum包管理器快速部署,适合新手与标准化运维;源码编译灵活定制模块,满足高性能与特殊需求场景。内容涵盖环境准备、依赖安装、配置优化及平滑升级策略,对比各方案优劣,助您根据业务场景选择最佳实践,构建稳定高效的Web服务基石。

5

2026.03.17

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Java 教程
Java 教程

共578课时 | 83.7万人学习

国外Web开发全栈课程全集
国外Web开发全栈课程全集

共12课时 | 1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号