0

0

将嵌套字典转换为带多级列索引的Pandas表格

碧海醫心

碧海醫心

发布时间:2026-01-25 21:10:02

|

444人浏览过

|

来源于php中文网

原创

将嵌套字典转换为带多级列索引的Pandas表格

本文介绍如何将三层嵌套字典(block → text → key)高效转换为结构清晰的pandas dataframe,通过转置、`json_normalize`、`concat`与`multiindex.from_product`组合实现自动化的多级列构建。

在实际数据处理中,我们常遇到类似 {"block1": {"text1": {"key1": "v1", "key2": "v2"}, ...}} 这样的三层嵌套字典结构,目标是将其展平为具备语义化层级的表格:行索引为 block 名(如 "block1"),一级列名为 text 标签(如 "text1"),二级列名为原始键名(如 "key1")。这本质上是构建一个具有 MultiIndex 列 的 DataFrame。

以下为完整、可复现的解决方案:

import pandas as pd

data = {
    "block1": {
        "text1": {
            "key1": "value1",
            "key2": "value2",
        },
        "text2": {
            "key1": "value3",
            "key2": "value4",
        },
    },
    "block2": {
        "text1": {
            "key1": "value5",
            "key2": "value6",
        },
        "text2": {
            "key1": "value7",
            "key2": "value8",
        },
    },
}

# Step 1: 初始化基础 DataFrame(按 block 为列)
df = pd.DataFrame(data)

# Step 2: 转置 → block 变为行索引,text 变为列名
df_t = df.T  # shape: (2, 2), index=['block1','block2'], columns=['text1','text2']

# Step 3: 对每一列(即每个 text)用 json_normalize 展开其内部字典
# 每个 textX 列对应一个 dict → json_normalize 生成单列 DataFrame(key1/key2 为列)
normalized_parts = [pd.json_normalize(df_t[col]) for col in df_t.columns]

# Step 4: 水平拼接所有展开结果,并设置行索引对齐原 df_t.index
new_df = pd.concat(normalized_parts, axis=1).set_index(df_t.index)

# Step 5: 构建 MultiIndex 列:外层为 text 名,内层为 key 名(需预先确定键名)
# 注意:此处假设所有 text 下的键结构一致;若不一致,建议先统一提取 keys = list(data["block1"]["text1"].keys())
keys = ["key1", "key2"]
new_df.columns = pd.MultiIndex.from_product([df_t.columns, keys], names=["text", "key"])

print(new_df)

输出结果如下(已自动对齐并支持分层访问):

学习导航
学习导航

学习者优质的学习网址导航网站

下载
text   text1           text2        
key     key1    key2    key1    key2
block1 value1  value2  value3  value4
block2 value5  value6  value7  value8

关键说明与注意事项:

  • json_normalize 是处理嵌套字典的利器,它能将 {"key1":"v1","key2":"v2"} 直接转为含两列的 DataFrame;
  • pd.concat(..., axis=1) 实现横向拼接,确保各 textX 部分并列;
  • set_index(df_t.index) 确保最终行索引与原始 block 顺序一致;
  • MultiIndex.from_product 要求明确知道所有子键(如 ["key1","key2"]),若键名动态变化,可统一提取:
    all_keys = sorted(set(k for block in data.values() for text in block.values() for k in text.keys()))
  • 若某 text 缺失某个 key,json_normalize 会自动填 NaN,保持列对齐。

该方法简洁、可扩展,适用于任意数量的 block 和 text,且天然支持 Pandas 的 .xs()、.loc[] 等多级索引操作,是构建结构化报表的理想选择。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

54

2025.12.04

PHP 命令行脚本与自动化任务开发
PHP 命令行脚本与自动化任务开发

本专题系统讲解 PHP 在命令行环境(CLI)下的开发与应用,内容涵盖 PHP CLI 基础、参数解析、文件与目录操作、日志输出、异常处理,以及与 Linux 定时任务(Cron)的结合使用。通过实战示例,帮助开发者掌握使用 PHP 构建 自动化脚本、批处理工具与后台任务程序 的能力。

37

2025.12.13

c++ 根号
c++ 根号

本专题整合了c++根号相关教程,阅读专题下面的文章了解更多详细内容。

42

2026.01.23

c++空格相关教程合集
c++空格相关教程合集

本专题整合了c++空格相关教程,阅读专题下面的文章了解更多详细内容。

46

2026.01.23

yy漫画官方登录入口地址合集
yy漫画官方登录入口地址合集

本专题整合了yy漫画入口相关合集,阅读专题下面的文章了解更多详细内容。

202

2026.01.23

漫蛙最新入口地址汇总2026
漫蛙最新入口地址汇总2026

本专题整合了漫蛙最新入口地址大全,阅读专题下面的文章了解更多详细内容。

341

2026.01.23

C++ 高级模板编程与元编程
C++ 高级模板编程与元编程

本专题深入讲解 C++ 中的高级模板编程与元编程技术,涵盖模板特化、SFINAE、模板递归、类型萃取、编译时常量与计算、C++17 的折叠表达式与变长模板参数等。通过多个实际示例,帮助开发者掌握 如何利用 C++ 模板机制编写高效、可扩展的通用代码,并提升代码的灵活性与性能。

16

2026.01.23

php远程文件教程合集
php远程文件教程合集

本专题整合了php远程文件相关教程,阅读专题下面的文章了解更多详细内容。

100

2026.01.22

PHP后端开发相关内容汇总
PHP后端开发相关内容汇总

本专题整合了PHP后端开发相关内容,阅读专题下面的文章了解更多详细内容。

73

2026.01.22

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
WEB前端教程【HTML5+CSS3+JS】
WEB前端教程【HTML5+CSS3+JS】

共101课时 | 8.5万人学习

JS进阶与BootStrap学习
JS进阶与BootStrap学习

共39课时 | 3.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号