0

0

如何在 Polars 中按组筛选匹配项并提取最高分对应的列表元素

碧海醫心

碧海醫心

发布时间:2026-01-25 18:41:19

|

868人浏览过

|

来源于php中文网

原创

如何在 Polars 中按组筛选匹配项并提取最高分对应的列表元素

本文介绍如何使用 polars 对分组数据进行条件筛选,精准定位每组中 `seq_grp` 与 `match` 不匹配但 `score` 最高的记录,并提取其 `match` 值与分数,适用于推荐系统、异常检测等需“次优匹配”分析的场景。

在 Polars 中处理分组后需基于嵌套列表(如 match: list[str] 和 score: list[i64])进行索引对齐操作时,直接使用 .list.get() 易出错——因为 match 和 score 列虽同组聚合,但顺序未必严格对应原始行序(尤其经 filter 或 agg 后)。更健壮且高效的方式是:避免提前展开为列表,而是在分组前用布尔条件过滤 + arg_max() 定位索引,再通过 .get() 提取目标字段值

以下是以原始数据为例的完整实现流程:

import polars as pl

df = pl.DataFrame(
    {
        "seq": "foo bar bar duk duk baz baz baz zed".split(),
        "seq_grp": "aa bb bb dd dd cc cc cc zz".split(),
        "match": "aa cc bb dd dd ff cc cc yy".split(),
        "score": [10, 8, 20, 8, 7, 5, 6, 4, 6],
    }
)

# ✅ 正确做法:找出每组中 match != seq_grp 的最高分记录
result = (
    df.lazy()
    .filter(pl.col("match") != pl.col("seq_grp"))  # 先排除完全匹配项
    .group_by(["seq", "seq_grp"], maintain_order=True)
    .agg(
        best_non_match=pl.col("match").get(pl.col("score").arg_max()),
        top_score=pl.col("score").max(),
        # 可选:同时获取原始索引或其它字段
        # original_idx=pl.arg_max("score"),
    )
    .collect()
)

print(result)

输出结果为:

Beautiful.ai
Beautiful.ai

AI在线创建幻灯片

下载
shape: (3, 4)
┌─────┬─────────┬────────────────┬───────────┐
│ seq ┆ seq_grp ┆ best_non_match ┆ top_score │
│ --- ┆ ---     ┆ ---            ┆ ---       │
│ str ┆ str     ┆ str            ┆ i64       │
╞═════╪═════════╪════════════════╪═══════════╡
│ bar ┆ bb      ┆ cc             ┆ 8         │
│ baz ┆ cc      ┆ ff             ┆ 5         │
│ zed ┆ zz      ┆ yy             ┆ 6         │
└─────┴─────────┴────────────────┴───────────┘
? 关键点解析:pl.col("score").arg_max() 返回该组内 score 最大值的相对索引位置(从 0 开始),安全且无需预知列表长度;.get(...) 直接作用于同组内的 match 列,确保索引对齐;使用 filter(...).group_by(...).agg(...) 链式操作,避免中间生成冗余 list 类型列,性能更优、语义更清晰;maintain_order=True 保证分组结果顺序与原始数据一致,便于调试与验证。

⚠️ 注意事项:

  • 若某组内所有 match == seq_grp(即无非匹配项),该组将被 filter 完全剔除,不会出现在结果中。如需保留空值,可改用 when/then/otherwise 结合 list.arg_max 处理;
  • arg_max() 在存在多个最大值时返回第一个出现位置,符合多数业务逻辑;若需随机或全部,应改用 list.eval().filter(...).first() 等方式;
  • 所有操作均支持 lazy() 模式,建议大数据量时始终启用以获得查询优化与延迟执行优势。

总结:Polars 的表达能力核心在于「向量化索引+惰性计算」。面对分组内跨列取值问题,优先考虑 arg_max/arg_min + get 组合,而非手动展开列表——既简洁可靠,又贴近底层计算逻辑,是真正符合 Polars 设计哲学的最佳实践。

相关专题

更多
c++ 根号
c++ 根号

本专题整合了c++根号相关教程,阅读专题下面的文章了解更多详细内容。

57

2026.01.23

c++空格相关教程合集
c++空格相关教程合集

本专题整合了c++空格相关教程,阅读专题下面的文章了解更多详细内容。

57

2026.01.23

yy漫画官方登录入口地址合集
yy漫画官方登录入口地址合集

本专题整合了yy漫画入口相关合集,阅读专题下面的文章了解更多详细内容。

237

2026.01.23

漫蛙最新入口地址汇总2026
漫蛙最新入口地址汇总2026

本专题整合了漫蛙最新入口地址大全,阅读专题下面的文章了解更多详细内容。

393

2026.01.23

C++ 高级模板编程与元编程
C++ 高级模板编程与元编程

本专题深入讲解 C++ 中的高级模板编程与元编程技术,涵盖模板特化、SFINAE、模板递归、类型萃取、编译时常量与计算、C++17 的折叠表达式与变长模板参数等。通过多个实际示例,帮助开发者掌握 如何利用 C++ 模板机制编写高效、可扩展的通用代码,并提升代码的灵活性与性能。

17

2026.01.23

php远程文件教程合集
php远程文件教程合集

本专题整合了php远程文件相关教程,阅读专题下面的文章了解更多详细内容。

103

2026.01.22

PHP后端开发相关内容汇总
PHP后端开发相关内容汇总

本专题整合了PHP后端开发相关内容,阅读专题下面的文章了解更多详细内容。

73

2026.01.22

php会话教程合集
php会话教程合集

本专题整合了php会话教程相关合集,阅读专题下面的文章了解更多详细内容。

81

2026.01.22

宝塔PHP8.4相关教程汇总
宝塔PHP8.4相关教程汇总

本专题整合了宝塔PHP8.4相关教程,阅读专题下面的文章了解更多详细内容。

70

2026.01.22

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
CSS3 教程
CSS3 教程

共18课时 | 4.8万人学习

PostgreSQL 教程
PostgreSQL 教程

共48课时 | 7.8万人学习

Django 教程
Django 教程

共28课时 | 3.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号