Polars 中按连续行分组聚合的惯用方法

花韻仙語

发布时间：2026-01-30 15:43:12

535人浏览过

来源于php中文网

原创

Polars 中按连续行分组聚合的惯用方法

在 polars 中，对 dataframe 按固定长度（如每 n 行）进行滑动或分段聚合时，`group_by_dynamic` 配合行索引是最推荐、最高效且符合惯用法的方案，优于手动构造分组键或使用窗口函数。

当需要将大型 DataFrame（例如 10⁶ 行、多列）按连续 n 行（如 n = 100）分段并执行聚合（如均值、求和、标准差等）时，核心挑战在于：如何简洁、高效、无副作用地构造分组依据。Polars 官方明确推荐 group_by_dynamic 用于此类“基于索引的动态分组”，它专为时间序列或有序整数索引设计，底层高度优化，支持并行分组计算，避免了 Python 层循环或 apply 的性能损耗。

你当前使用的 pl.int_range(pl.len()) 方式完全正确，但可进一步简化与健壮化——推荐使用 .with_row_index()，它更语义清晰、自动处理空表边界，并且是 Polars 0.20.0+ 的标准 API：

Ai好记

强大的AI音视频转录与总结工具

下载

import polars as pl

df = pl.DataFrame({"a": [1, 1, 3, 8, 62, 535, 4213], "b": range(7)})

n = 3
result = (
    df
    .with_row_index()
    .group_by_dynamic(
        index_column=pl.col("index").cast(pl.Int32),  # 必须为有符号整数
        every=f"{n}i",                                 # "3i" 表示每 3 行一组
        period=f"{n}i",                                 # 可选：若需重叠（如滑动窗口），设为 period="3i", offset="1i"
        closed="left"                                   # 默认行为：[0,3), [3,6), [6,9)...
    )
    .agg(
        pl.col("a").mean().alias("a_mean"),
        pl.col("b").sum().alias("b_sum"),
        pl.col("a").std().alias("a_std")
    )
)
print(result)

✅ 关键要点说明： every="ni" 中的 "i" 后缀表示 integer-based 分组（非时间），这是处理行号分组的必需写法； index_column 必须是 Int32 或 Int64（有符号），因此 .cast(pl.Int32) 不可省略（.with_row_index() 默认返回 UInt32）；若需滑动窗口（如每 1 行移动、取连续 100 行），请改用 rolling + over（如 pl.col("a").rolling_mean(window_size=n).over(pl.int_range(0, pl.len()) // n)），但注意其内存开销更大；group_by_dynamic 始终适用于不重叠分块聚合，性能最优；对于超大表（10⁶+ 行），该模式天然支持 Polars 的惰性执行与多线程调度，无需额外优化。

综上，你的原始思路完全符合 Polars 惯用法——只需将索引构造升级为 .with_row_index() 并显式类型转换，即可获得更简洁、可读性更强且生产就绪的实现。

Python怎么读取CSV文件_csv模块reader与DictReader解析

Python怎么做限流_基于Redis令牌桶的API接口防刷与限流拦截实现

Python怎么防SQL注入_ORM查询参数化与安全过滤技巧

Python aiohttp怎么下文件_流式响应(content.iter_chunked)异步下载大文件防内存溢出

Python车牌号验证：正确实现数字结尾与零开头检查的教程

相关标签:

python win Integer 循环线程多线程 len 类型转换

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python 组合优于继承的实践示例下一篇：如何正确使用 Tkinter 的 IntVar 变量实现动态分数更新

作者最新文章

Laravel 中动态显示悬浮内容时 HTML 元素意外消失的解决方案