Polars 中按前缀合并列并复制非匹配列以对齐长度的完整教程

心靈之曲

发布时间：2026-01-30 15:10:09

635人浏览过

来源于php中文网

原创

Polars 中按前缀合并列并复制非匹配列以对齐长度的完整教程

本文介绍如何在 polars 中将具有相同前缀（如 `a_0`, `a_1`, `a_2`）的多列纵向堆叠为单列（如 `a`），同时自动复制其他列（如 `words`, `groups`）以匹配扩展后的行数，实现高效、可扩展的宽表→长表→重组结构转换。

在数据处理中，常需将多个带编号后缀的列（如 a_0, a_1, a_2）合并为一个逻辑列 a，其值按列顺序逐列堆叠（即先全部 a_0 行，再全部 a_1 行，最后全部 a_2 行），而非逐行拼接。与此同时，其余“标识列”（如 words、groups）需被重复复制，使每组堆叠值都携带原始行上下文。这种操作本质上是“按列分组展开 + 保留标识维度 + 重聚合”，Polars 提供了简洁高效的链式解决方案。

核心思路是：

unpivot(index=...) —— 将所有数值列转为长格式，并保留指定标识列（words, groups）作为索引；
标准化变量名 —— 使用 str.replace("_.*", "") 去除 _数字后缀，统一列前缀（如 a_0 → a）；
构建内部序号 —— 对每个前缀组（如所有 a 行）独立生成递增索引 index，确保后续 pivot 能正确对齐行序；
pivot(..., index=[...]) —— 以 index + 标识列为联合索引，将 value 按 variable（即 a/b）重新宽表化。

以下是完整可运行代码（适配你的示例）：

import polars as pl
import numpy as np
import string

# 构造原始 DataFrame（同问题中）
rng = np.random.default_rng(42)
nr = 3
letters = list(string.ascii_letters)
uppercase = list(string.ascii_uppercase)
words, groups = [], []
for i in range(nr):
    word = ''.join([rng.choice(letters) for _ in range(rng.integers(3, 20))])
    words.append(word)
    group = rng.choice(uppercase)
    groups.append(group)
df = pl.DataFrame({
    "a_0": np.linspace(0, 1, nr),
    "a_1": np.linspace(1, 2, nr),
    "a_2": np.linspace(2, 3, nr),
    "b_0": np.random.rand(nr),
    "b_1": 2 * np.random.rand(nr),
    "b_2": 3 * np.random.rand(nr),
    "words": words,
    "groups": groups,
})

# 执行列合并与标识列复制
result = (
    df
    .unpivot(index=["words", "groups"])  # 长格式化：保留 words/groups，其余列转为 variable/value
    .with_columns(pl.col("variable").str.replace("_.*", ""))  # 提取前缀：a_0 → a
    .with_columns(index=pl.int_range(pl.len()).over("variable"))  # 每个前缀内独立编号：a组0,1,2；b组0,1,2
    .pivot(on="variable", index=["index", "words", "groups"], values="value")  # 按前缀重聚为宽表
    .drop("index")  # 删除临时序号列
)

print(result)

✅ 输出结果与预期完全一致（shape: (9, 4)），a 和 b 列按列堆叠，words/groups 被精确复制 3 次（对应 a_0/a_1/a_2 三列）。

甲骨文AI协同平台

专门用于甲骨文研究的革命性平台

下载

⚠️ 关键注意事项：

unpivot(index=...) 是本方案基石：它保证 words 和 groups 不被折叠，而是作为每条长记录的元数据存在；
pl.int_range(pl.len()).over("variable") 必须作用于 variable（即前缀），而非原始列名，否则序号会跨组错乱；
若存在多个前缀组（如 a_*, b_*, c_*），该方法天然支持，只需确保 str.replace 正确提取前缀；
性能优异：全程惰性计算（LazyFrame 兼容），无需 Python 循环或 explode() 等显式复制操作。

? 进阶提示：若需动态识别前缀列（而非硬编码 ["words", "groups"]），可用正则匹配列名：

id_cols = [col for col in df.columns if not re.match(r"^[a-z]+_\d+$", col)]
# 然后代入 unpivot(index=id_cols)

此方法兼顾表达力、可读性与执行效率，是 Polars 处理“前缀列归并+上下文广播”场景的标准范式。

Python-docx中设置页面宽度与高度的正确方法

Python-docx 中设置页面宽度与高度的正确方法

Python-docx 中设置页面宽度和高度的正确方法

Python自动化办公教程_ExcelWordPDF批量处理

如何用Python高效提取CSV数据并自动导入Word表格

相关标签:

word python 编码循环堆 len

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python 类型系统的边界与妥协下一篇：如何让异步函数在同步上下文中安全运行（asyncio.run_coroutine_threadsafe）

作者最新文章

如何在 Next.js 中正确处理 Axios 异步请求以避免状态更新延迟

2026-03-18 16:18

PHP密码强度校验：禁止包含用户名、全名及姓名首字母组合

2026-03-18 16:18

如何使用 CSS clip-path 创建非矩形网页页眉

2026-03-18 16:23

自动捕获网页摄像头画面并保存为 PNG 文件的完整实现教程

2026-03-18 16:37

Java反射机制中通过字段值反向查找对应类的实践方法

2026-03-18 16:44

Python中逻辑“and”与按位“&”的本质区别

2026-03-18 16:47

如何安全处理 JSON 数据中可能缺失的键（KeyError 防御指南）

2026-03-18 17:11

JavaScript 中 BigInt 与浮点数的安全乘法运算指南

2026-03-18 17:27

如何在 JavaScript 中安全解析并提取 JSON 字符串中的姓名字段

2026-03-18 17:36

如何在 Go 中将 uintptr 安全转换为 []byte

2026-03-18 17:41

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

堆和栈的区别

堆和栈的区别：1、内存分配方式不同；2、大小不同；3、数据访问方式不同；4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容，供大家免费下载体验。

448

2023.07.18

堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

606

2023.08.10

堆和栈的区别

448

2023.07.18

堆和栈区别

606

2023.08.10

Python WebSocket实时通信与异步服务开发实践

本专题聚焦 Python 在实时通信场景中的开发实践，系统讲解 WebSocket 协议原理、长连接管理、消息推送机制以及异步服务架构设计。内容包括客户端与服务端通信实现、连接稳定性优化、消息队列集成及高并发处理策略。通过完整案例，帮助开发者构建高效稳定的实时通信系统，适用于聊天应用、实时数据推送等场景。

2026.03.18