
本文介绍如何将形如 `{block: {text: {key: value}}}` 的三层嵌套字典高效转换为具有 multiindex 列(如 `text1 → key1`)的结构化 dataframe,适用于配置解析、实验结果汇总等场景。
要将深度为三层的嵌套字典(block → text → key)转化为符合需求的表格形式,核心在于重构索引层级与展平嵌套结构。原始代码 pd.DataFrame(data) 会直接将最外层键(block1, block2)作为列,导致结构错位;正确做法是先转置使 blocks 成为行索引,再对每个 text 子字典进行标准化展开。
以下是完整、健壮的实现方案:
import pandas as pd
data = {
"block1": {
"text1": {"key1": "value1", "key2": "value2"},
"text2": {"key1": "value3", "key2": "value4"},
},
"block2": {
"text1": {"key1": "value5", "key2": "value6"},
"text2": {"key1": "value7", "key2": "value8"},
},
}
# 步骤 1:转置,使 block 变为行索引(而非列)
df_temp = pd.DataFrame(data).T
# 步骤 2:对每个 text 列(如 'text1', 'text2')应用 json_normalize,展平其内部字典
# 注意:json_normalize 要求输入为 list of dict,因此需包装为 [d] 形式
normalized_parts = [
pd.json_normalize([df_temp.loc[block, text]]) # 对每个 block+text 提取并归一化
for block in df_temp.index
for text in df_temp.columns
]
# 更推荐的简洁写法(与原答案一致,但更清晰):
dfs_by_text = [pd.json_normalize(df_temp[text]) for text in df_temp.columns]
combined = pd.concat(dfs_by_text, axis=1)
# 步骤 3:重设行索引为原始 block 名,并构建 MultiIndex 列
combined.index = df_temp.index
keys = ["key1", "key2"] # 假设所有 text 下 key 结构一致;若不固定,可动态提取:list(df_temp.iloc[0,0].keys())
combined.columns = pd.MultiIndex.from_product([df_temp.columns, keys])
# 最终结果
print(combined)输出效果如下(自动对齐,支持 .to_html() 渲染为带分组表头的 HTML 表格):
text1 text2
key1 key2 key1 key2
block1 value1 value2 value3 value4
block2 value5 value6 value7 value8✅ 注意事项:
- pd.json_normalize 要求子字典结构严格一致(即所有 textX 下必须包含完全相同的 key 集合),否则缺失值将自动填充为 NaN;
- 若 key 不固定,建议先遍历 data 动态收集全部 key(如 set(k for b in data.values() for t in b.values() for k in t.keys()));
- 此方法天然支持任意数量的 block 和 text,扩展性强,无需硬编码列名;
- 如需导出为 Excel 并保留多级表头,可直接使用 combined.to_excel("output.xlsx") —— Pandas 会自动渲染层级。
该方案兼顾可读性、健壮性与工程实用性,是处理配置型嵌套数据的标准范式。










