Polars 中实现两个爆炸列的左连接：基于 ID 匹配的高效映射

霞舞

发布时间：2026-02-25 14:39:26

782人浏览过

来源于php中文网

原创

Polars 中实现两个爆炸列的左连接：基于 ID 匹配的高效映射

本文介绍如何在 Polars 中对两个嵌套列表列（a 为整数列表，b 为字典列表）执行类似 SQL LEFT JOIN 的操作：先展开两列，再按 a[i] == b[j].id 关联，并为每个 a 元素保留对应的 b.x 值（未匹配则为 null）。

本文介绍如何在 polars 中对两个嵌套列表列（`a` 为整数列表，`b` 为字典列表）执行类似 sql left join 的操作：先展开两列，再按 `a[i] == b[j].id` 关联，并为每个 `a` 元素保留对应的 `b.x` 值（未匹配则为 `null``。

在 Polars 中处理嵌套结构时，常见的误区是直接对多列同时 .explode() 后用 .filter() 进行内连接——这会丢失未匹配的左侧元素，无法满足左连接语义。要真正实现「每个 a 元素占一行，优先填充其在 b 中匹配的 x 值，无匹配则补 null」，关键在于分离爆炸、结构化解构、分组聚合决策，而非过滤。

以下是推荐的高效实现方案：

import polars as pl

df = pl.DataFrame({
    "a": [[1, 2], [3]],
    "b": [
        [{"id": 1, "x": 1}, {"id": 3, "x": 3}],
        [{"id": 3, "x": 4}]
    ]
})

result = (
    df
    .explode("a")                    # 展开 a → 每个 a 元素独立成行（保留原始行关联）
    .explode("b")                    # 展开 b → 每个字典独立成行（与上一步笛卡尔式组合）
    .unnest("b")                     # 将 struct 列 b 拆为同级字段 id 和 x
    .group_by("a", maintain_order=True)  # 按 a 分组（保持原始 a 出现顺序）
    .agg(
        pl.when(pl.col("a") == pl.col("id"))
          .then(pl.col("x"))
          .sort(nulls_last=False)     # null 排最前，非 null 自然靠后
          .last()                     # 取最后一个（即首个非 null；若全 null 则为 null）
    )
    .rename({"x": "b"})              # 语义对齐：输出列名应为 b
)

print(result)

输出结果：

Cogniflow

Cogniflow是一个无代码AISaas解决方案，允许用户创建和部署AI模型，

下载

shape: (3, 2)
┌─────┬──────┐
│ a   ┆ b    │
│ --- ┆ ---  │
│ i64 ┆ i64  │
╞═════╪══════╡
│ 1   ┆ 1    │
│ 2   ┆ null │
│ 3   ┆ 4    │
└─────┴──────┘

✅ 为什么这个方案是左连接？

.explode("a") 确保所有 a 元素均保留（左表完整性）；
.group_by("a") + .agg(...) 在每组内进行“查找并取值”，不依赖右侧是否存在匹配项；
pl.when(...).then(...).sort().last() 是核心技巧：它生成一个每组内长度可变的表达式序列（匹配则填 x，否则 null），排序后取最后一个，等价于「取第一个有效值」，天然支持左连接语义。

⚠️ 注意事项：

maintain_order=True 对于保持 a 的原始顺序（如 [1,2] 先于 3）至关重要，否则分组可能重排；
若 b 中存在同一 id 多次出现，.last() 会返回最后一次匹配的 x；如需首次匹配，可改用 .first()（但需将 nulls_last=True 并调整排序逻辑）；
unnest("b") 要求 b 列结构一致（所有字典含相同字段），否则会报错；建议提前用 pl.col("b").struct.field("id").is_null().any() 校验数据质量；
性能方面：该方案避免了 join 操作的索引构建开销，在中等规模数据（百万级爆炸后行数）下仍保持高效。

总结来说，Polars 中的“类左连接”不依赖显式 join，而应善用 explode → unnest → group_by → 条件聚合这一范式，既符合函数式链式风格，又能精准控制空值行为与匹配优先级。

相关标签:

sql NULL sort Filter Struct

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何在 Matplotlib 中精简 X 轴刻度并均匀铺满整个横轴范围下一篇：使用 SymPy 计算椭球与平面交线（椭圆）的主轴方向向量

作者最新文章

如何在 Pandas 中高效提取合并操作中的非匹配行（排除已匹配数据）

2026-02-25 13:09

Next.js 13+ API Route 响应返回与客户端消费完整指南

2026-02-25 13:24

Prisma 透明事务系统原理与实现指南

2026-02-25 13:27

如何准确区分 PyTorch 普通张量与嵌套张量（Nested Tensor）

2026-02-25 13:57

BoltDB 并发访问与连接池实现指南：从单进程限制到 HTTP 服务化封装

2026-02-25 14:08

如何解决 Vite 项目部署后仅首页可访问、其他路由 404 的问题

2026-02-25 14:39

Polars 中实现两个爆炸列的左连接：基于 ID 匹配的高效映射

2026-02-25 14:39

Java中使用XPath精准提取XML中同级子元素文本值的完整教程

2026-02-25 15:13

Java Streams 中对字符串型数字字段进行整型排序的完整实践指南

2026-02-25 15:14

如何在 Promise.allSettled 结果中保留原始 ID 映射关系

2026-02-25 15:37

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍：1、Excel，具有强大的计算和数据处理功能；2、SQL，可以进行数据查询、过滤、排序、聚合等操作；3、Python，拥有丰富的数据分析库；4、R，拥有丰富的统计分析库和图形库；5、Tableau，提供了直观易用的用户界面等等。

1027

2023.10.12