讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题人工智能 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架人工智能 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI聊天问答 Agent智能体 AI文本写作 AI绘画作图 AI设计工具 AI视频创作 AI音频制作 AI办公学习 AI编程开发 AI提示词

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

0

0

如何显著加速 Pandas 中基于时间窗口的分组滚动均值计算？

花韻仙語

发布时间：2026-01-28 13:34:04

|

505人浏览过

|

来源于php中文网

原创

如何显著加速 Pandas 中基于时间窗口的分组滚动均值计算？

本文介绍一种比传统 `groupby().apply(rolling())` 快约 15 倍的替代方案，通过重构索引与预聚合滚动计算，大幅提升大规模时序分组滚动均值（如 180 天窗口）的执行效率。

在处理高频时序分组分析任务（如赛马数据中按“马匹+练马师”组合统计过去 180 天的平均积分）时，Pandas 默认的链式写法虽然语义清晰，但性能瓶颈明显：

# ❌ 原始低效写法（约 18.5 秒 / 10 万行）
df['HorseRaceCount90d'] = (
    df.groupby(['Horse', 'Trainer'], group_keys=False)
      .apply(lambda x: x.rolling(window='180D', on='RaceDate')['Points'].mean())
)

该方式对每个分组单独执行 rolling(..., on='RaceDate')，触发大量重复索引对齐与时间窗口判定，且 apply 无法被 Pandas 底层向量化优化，导致严重性能衰减。

✅ 更优解：先设索引 → 分组滚动 → 合并回原表
核心思路是将时间列设为索引，使 rolling('180D') 直接作用于 DatetimeIndex，避免每次调用都解析 on= 参数；再利用 groupby(...)['Points'].rolling(...).mean() 的原生高效实现，最后通过三键（Horse, Trainer, RaceDate）精准合并结果：

# ✅ 高效写法（约 1.18 秒 / 10 万行，提速 15×）
rolling_result = (
    df.set_index('RaceDate')                    # 关键：以时间列为索引
      .groupby(['Horse', 'Trainer'])['Points']  # 按业务维度分组
      .rolling('180D')                          # 原生支持时间字符串窗口
      .mean()                                   # 向量化滚动均值
      .rename('HorseRaceCount90d')              # 命名结果列
)

# 通过 Horse + Trainer + RaceDate 三字段精确匹配合并（确保时序对齐）
df = df.merge(
    rolling_result,
    left_on=['Horse', 'Trainer', 'RaceDate'],
    right_index=True,
    how='left'
)

⚠️ 注意事项：

比格设计

比格设计

比格设计是135编辑器旗下一款一站式、多场景、智能化的在线图片编辑器

下载

set_index('RaceDate') 前务必确认 RaceDate 已为 datetime64[ns] 类型（可用 pd.to_datetime() 强制转换）；
merge 时必须包含全部分组键（Horse, Trainer）和时间戳（RaceDate），否则可能因索引重复或错位导致 NaN 或数据错乱；
若原始数据存在同一 (Horse, Trainer, RaceDate) 多条记录（如多场同日赛事），需提前去重或聚合，否则 merge 可能产生笛卡尔膨胀；
此方法天然支持 min_periods=1（默认行为），如需严格要求满窗才计算，可追加 .rolling('180D', min_periods=180)，但注意天数精度受实际日期密度影响。

? 扩展建议：
若需批量计算多个时间窗口（如 30D/90D/180D），可封装为函数复用索引结构；对于超大规模数据（千万级+），建议结合 dask.dataframe 或 polars 进一步加速——后者在同类滚动操作中通常比 Pandas 再快 2–5 倍。

总之，避开 apply、善用索引驱动的原生 rolling、精准 merge 回填，是优化 Pandas 时间感知分组滚动计算的黄金三角。

相关文章

Python Django自定义命令怎么写_management/commands脚本编写实现按周期自动清理数据

Dash App 多下拉框联动失效的典型原因与解决方案

Python手机自动化怎么做_Appium客户端配置与安卓苹果手机APP全量自动化

Dash App 多下拉框联动失效的常见原因与修复方案

Python怎么抓包_mitmproxy实现手机PC中间人网络请求拦截篡改与数据截获

相关标签:

ai win 性能瓶颈 pandas 封装重构

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：批量处理 ZIP 内所有 TXT 文件并转换为带清洗逻辑的 CSV 下一篇：scp 中断后 rsync -avzP --append 的续传最佳实践

作者最新文章

Laravel 中动态显示悬浮内容时 HTML 元素意外消失的解决方案

2026-03-15 16:33

如何在 Spring Boot 原生镜像（Native Image）中嵌入文件

2026-03-15 16:41

Java中高效提取字符串列表中的纯数字：正则表达式与流式处理实战指南

2026-03-15 16:41

如何解决视差动画在元素滚动进入视口时的延迟问题

2026-03-15 16:43

如何在 Windows 命令行中正确编译和运行 Java 程序

2026-03-15 16:52

为同一 HTML 元素 ID 实现差异化悬停效果：正确分离与精准控制

2026-03-15 16:52

如何用单条 SQL 查询统计全年每日设备在线数量

2026-03-15 16:58

MongoDB 动态查询中正确合并 $or 条件的 PHP 实践指南

2026-03-15 17:01

Spring Kafka消费者失败消息重试机制详解与正确配置指南

2026-03-15 17:07

Laravel Livewire 表单中蜜罐字段导致输入框失焦的解决方案

2026-03-15 17:53

热门AI工具

更多

DeepSeek

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

更多

Python 时间序列分析与预测

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

82

2025.12.04

Python 数据清洗与预处理实战

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

34

2026.01.31

抖漫入口地址合集

抖漫入口地址合集

本专题整合了抖漫入口地址相关合集，阅读专题下面的文章了解更多详细地址。

1

2026.03.17

多环境下的 Nginx 安装、结构与运维实战

多环境下的 Nginx 安装、结构与运维实战

本专题聚焦多环境下Nginx实战，详解开发、测试及生产环境的差异化安装策略与目录结构规划。深入剖析配置模块化设计、灰度发布流程及跨环境同步机制。结合监控告警、故障排查与自动化运维工具，提供全链路管理方案，助力团队构建灵活、高可用的Nginx服务体系，从容应对复杂业务场景挑战。

0

2026.03.17

PS 批量添加图片

PS 批量添加图片

本专题整合了PS批量添加图片教程合集，阅读专题下面的文章了解更多详细操作。

0

2026.03.17

Nginx 基础架构：从安装配置到系统化管理

Nginx 基础架构：从安装配置到系统化管理

本专题深入解析Nginx基础架构，涵盖从源码编译与包管理安装，到核心配置文件优化及虚拟主机部署。进一步探讨日志轮转、性能调优、高可用集群构建及自动化运维策略，助力管理员实现从单一服务搭建到企业级系统化管理的全面升级，确保Web服务高效、稳定运行。

1

2026.03.17

mulerun骡子快跑入口地址汇总

mulerun骡子快跑入口地址汇总

本专题整合了mulerun入口地址合集，阅读专题下面的文章了解更多详细内容。

36

2026.03.17

源码编译安装Nginx详解：模块选择、依赖准备与常见错误排查

源码编译安装Nginx详解：模块选择、依赖准备与常见错误排查

本专题详解Nginx源码编译全流程：从GCC、OpenSSL等依赖准备，到按需定制HTTP/SSL/流媒体模块的configure参数策略。深入剖析“缺少库文件”、“配置选项冲突”及“权限错误”等常见报错，提供精准排查思路与解决方案。助您掌握灵活构建高性能、定制化Nginx的核心技能，满足复杂生产环境需求。

1

2026.03.17

Linux环境安装Nginx全流程：apt、yum与源码编译方式深度实操

Linux环境安装Nginx全流程：apt、yum与源码编译方式深度实操

本专题深度实操Linux下Nginx三大安装方式：apt/yum包管理器快速部署，适合新手与标准化运维；源码编译灵活定制模块，满足高性能与特殊需求场景。内容涵盖环境准备、依赖安装、配置优化及平滑升级策略，对比各方案优劣，助您根据业务场景选择最佳实践，构建稳定高效的Web服务基石。

5

2026.03.17

热门下载

更多

网站特效

/

网站源码

/

网站素材

/

前端模板

相关下载

更多

php商城系统

淘源码商城PHP淘宝查信誉

PHP房产程序[BBWPS]

PHP简约自动发卡平台个人版

ERMEB域名PHP离线网络授权系统

Difeye-敏捷的轻量级PHP框架

大泉州汽车网PHP整站程序

精品课程

更多

相关推荐

/

热门推荐

/

最新课程

Java 教程

Java 教程

共578课时 | 83.7万人学习

国外Web开发全栈课程全集

国外Web开发全栈课程全集

共12课时 | 1万人学习

全栈式APP开发进阶教程（前端uniapp+后端ThinkPHP框架）

全栈式APP开发进阶教程（前端uniapp+后端ThinkPHP框架）

共18课时 | 1.4万人学习

最新文章

更多

Python CSV 用户数据追加写入的正确实践：避免覆盖现有记录

Python CSV 用户管理：如何正确合并新旧用户数据并保留历史记录

Django 中高效预加载 OneToOneField 关联对象的完整实践指南

将键值对列表结构的 DataFrame 列展开为独热编码式宽表结构

如何精准定位合同文本模板中的错误类型与位置

PyQt5 中实现欧元金额输入的智能 QDoubleSpinBox 教程

高效构建 DateTime 区间分钟级累计计数的 Pandas 向量化方案

PythonAnywhere 免费账户邮件发送限制与解决方案

如何从嵌套 JSON 中精准提取特定服务的登录账号

如何在 Xarray 时间序列数据中精准选取指定日期

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部