Pandas 滚动窗口自定义函数应用：支持列名访问与任意维度输出的高效方案

霞舞

发布时间：2026-01-30 20:19:00

172人浏览过

来源于php中文网

原创

Pandas 滚动窗口自定义函数应用：支持列名访问与任意维度输出的高效方案

本文介绍如何在 pandas 中实现真正的滚动窗口（rolling window）自定义函数计算，突破 `rolling().apply()` 的限制（如强制 raw=true、输入输出列数绑定），通过 `numpy.sliding_window_view` 构建可按列名操作、灵活返回多列结果的高性能滚动处理流程。

在 Pandas 中，DataFrame.rolling().apply() 是最直观的滚动计算接口，但它存在两个关键限制：

当 raw=True 时，传入函数的是 numpy.ndarray，无法直接使用列名（如 window["A"]）进行语义化操作；
当 raw=False 时，虽可获得 Series 或子 DataFrame，但返回值必须与原始列数严格一致，且仅支持标量或同长数组，无法自然生成新增列（如输入 3 列 → 输出 4 列）。

官方 API 目前没有内置方法直接支持“带列名的滚动 DataFrame 切片 + 任意结构输出”。但借助 NumPy 底层能力，我们可以构建一个既保持代码清晰性、又兼顾性能的替代方案——numpy.lib.stride_tricks.sliding_window_view。

该函数可在不复制内存的前提下，将二维数组（如 df.values）按指定窗口形状（如 (2, 3) 表示 2 行 × 3 列）生成滑动视图，再逐个封装为轻量 pd.DataFrame（设置 copy=False 进一步避免冗余拷贝），从而在函数体内自由使用列名、执行复杂逻辑，并返回任意长度的结果元组。

以下是一个完整、可复用的实现示例：

HIX Translate

由 ChatGPT 提供支持的智能AI翻译器

下载

import pandas as pd
import numpy as np
from numpy.lib.stride_tricks import sliding_window_view

# 示例数据
df = pd.DataFrame({
    "A": range(10),
    "B": range(10, 20),
    "C": range(20, 30)
})

# 定义滚动窗口大小（行数）和参与列
window_size = 2
cols = ["A", "B", "C"]

# 初始化结果列表：首行为 NaN（因窗口不足）
results = [tuple([np.nan] * 4)]  # 假设输出 4 列：D, E, F, G

# 核心滚动处理：生成 (window_size, len(cols)) 形状的滑动块
for window_arr in sliding_window_view(df[cols].values, window_shape=(window_size, len(cols))):
    # 将当前窗口数组转为临时 DataFrame（零拷贝）
    window_df = pd.DataFrame(window_arr[0], columns=cols, copy=False)

    # ✅ 现在可直接用列名操作！逻辑清晰、可读性强
    D_val = window_df["A"].sum()                    # 例：A列求和
    E_val = (window_df["A"] + window_df["B"]).mean() # 例：A+B均值
    F_val = (window_df["C"] - 1).prod()              # 例：C-1连乘
    G_val = (window_df["B"] * 2).sum()               # 例：B×2求和

    results.append((D_val, E_val, F_val, G_val))

# 构造结果 DataFrame 并合并到原表
result_df = pd.DataFrame(results, columns=["D", "E", "F", "G"])
df_final = pd.concat([df, result_df], axis=1)

print(df_final)

✅ 优势总结：

列名友好：window_df["A"] 等写法完全兼容 Pandas 风格，便于调试与维护；
输出自由：返回任意长度元组，轻松扩展新列（不限于输入列数）；
性能可控：sliding_window_view 为视图操作，copy=False 避免中间数据拷贝；
边界清晰：首行自动填充 NaN，符合滚动窗口语义（也可按需改为 min_periods 逻辑）。

⚠️ 注意事项：

sliding_window_view 要求 NumPy ≥ 1.20；若版本较低，可用 np.lib.stride_tricks.as_strided 手动实现（需谨慎处理内存安全）；
对超大规模数据（如百万行+），Python 层 for 循环可能成为瓶颈，此时建议将核心计算逻辑向量化（如用 np.sum(window_arr[:, 0], axis=0) 替代 window_df["A"].sum()）或改用 Numba 加速；
若需时间序列对齐（如按日期索引滚动），请先确保 df 按时间排序，并在 sliding_window_view 前提取 .values，索引对齐由最终 concat 保证。

该方案在可读性、灵活性与性能之间取得了良好平衡，是目前 Pandas 生态中处理“复杂滚动计算 + 列名依赖 + 多输出”场景的推荐实践。

Python await怎么用_await后面必须接可等待对象(协程/Task/Future)规则解析

Python Flask表单怎么校验_深入WTForms自定义验证器编写指南与多字段联合复杂校验

Python树的层序遍历怎么写_利用队列辅助实现二叉树BFS广度遍历

Python Flask怎么发邮件_通过Flask-Mail配置SMTP服务器支持异步发送HTML模板邮件

Python协程怎么取消_task.cancel()抛出CancelledError异常与安全退出清理资源操作

相关标签:

python win numpy pandas for 封装循环接口切片 copy

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：pure-ftpd 虚拟用户认证失败的 pure-pw mkdb 与 db 同步下一篇：大量 TIME_WAIT 导致 443 端口无法绑定的 tcp_tw_reuse + net.ipv4.tcp_fin_timeout=10

作者最新文章

猫眼电影怎么进行影评与评分

2026-03-15 14:17

Pandas 中按 code 分组前向填充 -1 值并按时间排序的正确实现

2026-03-15 14:43

如何在 Python 中约束可变参数函数的所有参数均为 JSON 兼容类型

2026-03-15 14:50

如何使用 Eloquent 高效筛选至少关联一个子模型的父级集合

2026-03-15 14:56

研究发现《我的世界》和《罗布乐思》玩家较少游玩3A新作

2026-03-15 14:56

TypeScript ESM 导入中解决无扩展名路径报错的正确配置方案

2026-03-15 15:08

Go 语言中如何在函数内部定义带方法的结构体（模拟接口实现的正确姿势）

2026-03-15 15:16

如何在 Python 中优雅地调用登录成功后的函数

2026-03-15 15:26

如何在 OpenAI 响应中正确移除多行代码块的三重反引号（）标记

2026-03-15 15:39

眼镜到底有多暴利：标价799元的镜片进价仅15元

2026-03-15 15:47

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍：1、IDE接口是一种并行接口，主要用于连接硬盘和光驱等设备，它主要有两种类型：ATA和ATAPI，IDE接口已经逐渐被SATA接口；2、SATA接口是一种串行接口，相较于IDE接口，它具有更高的传输速度、更低的功耗和更小的体积；3、SCSI接口等等。

2009

2023.10.19