将键值对列表结构的 DataFrame 列展开为独热编码式宽表结构

花韻仙語

发布时间：2026-03-17 14:14:29

475人浏览过

来源于php中文网

原创

将键值对列表结构的 DataFrame 列展开为独热编码式宽表结构

本文介绍如何使用 pandas 的 explode() 与 pivot() 组合，高效地将包含并行键列表和值列表的两列（如 ['Dogs','Cats'] 和 [0.5,0.25]）转换为以键为列名、值为单元格内容的宽格式 DataFrame，并自动补零对齐。

本文介绍如何使用 pandas 的 `explode()` 与 `pivot()` 组合，高效地将包含并行键列表和值列表的两列（如 `['dogs','cats']` 和 `[0.5,0.25]`）转换为以键为列名、值为单元格内容的宽格式 dataframe，并自动补零对齐。

在实际数据处理中，常遇到“键值对存于平行列表列”的结构：一列存储类别标签（如 ['Dogs', 'Cats', 'Horses']），另一列存储对应数值（如 [0.5, 0.25, 0.25]）。目标是将其规整为标准宽表——即每个唯一键成为独立列，每行按原始映射填充数值，缺失项补 0。手动循环不仅易错（如原代码因误判 value 类型引发 TypeError: 'float' object is not iterable），且性能低下。

推荐解法：explode() + pivot() 一行实现

核心思路是利用 explode() 对多列同步展开（确保键与值的对应关系不被破坏），再用 pivot() 重塑结构：

import pandas as pd

# 构造示例数据
df = pd.DataFrame({
    "Column A": [['Dogs','Cats','Horses'], ['Dogs'], ['Cats','Horses']],
    "Column B": [[0.5, 0.25, 0.25], [1.0], [0.75, 0.25]]
})

# 一行完成转换
result = df.explode(["Column A", "Column B"]).pivot(
    columns="Column A", 
    values="Column B"
).fillna(0).sort_index(axis=1)  # sort_index 可选，使列按字母序排列

print(result)

输出：

ProcessOn

免费在线流程图思维导图，专业强大的作图工具，支持多人实时在线协作

下载

Column A  Cats  Dogs  Horses
0        0.25   0.5    0.25
1        0.00   1.0    0.00
2        0.75   0.0    0.25

✅ 关键说明：

explode(["Column A", "Column B"])：要求两列均为 list 类型，且同索引行内列表长度一致。pandas 会逐行同步展开，保证 'Dogs' ↔ 0.5、'Cats' ↔ 0.25 等配对不丢失；
pivot(columns="Column A", values="Column B")：以展开后的 "Column A" 值为新列名，"Column B" 值为单元格内容；
fillna(0)：将未出现的组合（如第1行无 'Cats'）填充为 0.0，符合需求；
.sort_index(axis=1)：可选，使列名按字典序排列（Cats, Dogs, Horses），提升可读性。

⚠️ 注意事项：

若原始数据存在空列表（如 []），explode 后该行将被丢弃。需提前处理：df = df[df['Column A'].str.len() > 0]；
若 Column B 中存在非数值类型（如字符串），pivot 可能报错，建议转换：df['Column B'] = df['Column B'].apply(pd.to_numeric, errors='coerce')；
此方法天然支持任意数量的键值对，无需预定义列名，扩展性强。

相比嵌套循环，该方案简洁、向量化、鲁棒性强，是 pandas 处理此类“列表对齐展开”任务的标准范式。

相关标签:

pandas Float Object 字符串存储类循环值类型 len column

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何精准定位合同文本模板中的错误类型与位置下一篇：暂无

作者最新文章

Laravel 中动态显示悬浮内容时 HTML 元素意外消失的解决方案

2026-03-15 16:33

如何在 Spring Boot 原生镜像（Native Image）中嵌入文件

2026-03-15 16:41

Java中高效提取字符串列表中的纯数字：正则表达式与流式处理实战指南

2026-03-15 16:41