如何将 Pandas DataFrame 高效转换为多级嵌套字典-Python教程-PHP中文网

如何将 Pandas DataFrame 高效转换为多级嵌套字典

本文介绍一种无需双重 for 循环的简洁方法，利用 `groupby().apply()` 的嵌套调用，将 dataframe 按多个列分组并转换为深度嵌套字典（如 `{col1: {col2: [{record}, ...]}}`，兼顾可读性与性能。

在数据处理中，常需将扁平化的 DataFrame 转换为结构化嵌套字典，以适配 API 请求、配置生成或前端树形渲染等场景。传统双重 for 循环虽直观，但代码冗长、可维护性差，且难以扩展至三层及以上层级。

Pandas 提供了更优雅的函数式方案：通过链式 groupby().apply() 实现多级嵌套。核心思路是逐层分组，并在最内层将子 DataFrame 转为记录列表（to_dict(orient='records')），外层则自动聚合为字典。

以下为推荐实现（兼容 pandas ≥ 1.3）：

Axiom

Axiom是一个浏览器扩展，用于自动化重复任务和web抓取。

下载

import pandas as pd

# 构造示例数据（同原问题）
a = pd.DataFrame([
    {'col1': 'A', 'col2': 'Person 1', 'height': 1, 'weight': 10},
    {'col1': 'A', 'col2': 'Person 1', 'height': 2, 'weight': 20},
    {'col1': 'A', 'col2': 'Person 2', 'height': 4, 'weight': 40},
    {'col1': 'B', 'col2': 'Person 1', 'height': 11, 'weight': 101},
    {'col1': 'B', 'col2': 'Person 2', 'height': 41, 'weight': 401},
])

# ✅ 推荐：单行嵌套 groupby + apply
result = (
    a.groupby('col1')
     .apply(lambda x: x.groupby('col2').apply(lambda y: y.to_dict('records')))
     .to_dict()
)

该写法输出结构与原始双循环完全一致：外层键为 'col1' 值（如 'A'），中层键为 'col2' 值（如 'Person 1'），末层为对应分组的完整记录列表（含所有原始字段）。

⚠️ 注意事项：to_dict() 在 Series 上默认返回 {'index': value} 形式，但此处因 apply() 返回的是 pd.Series（索引为 col2 值，值为列表），调用 .to_dict() 会自动映射为 {col2_value: record_list}，无需额外处理；若需支持三层嵌套（如 col1 → col2 → col3），可继续嵌套：.groupby('col1').apply(...).groupby('col2').apply(...).groupby('col3').apply(...).to_dict()，但建议封装为递归函数提升可读性；对于超大数据集，apply 可能略慢于向量化操作；若仅需特定字段，可先用 [['col2', 'height', 'weight']] 选择列以减少内存开销。

总结：相比显式循环，此方法更符合 pandas 函数式编程范式，逻辑清晰、扩展性强，且一行核心代码即可完成多级结构构建，是生产环境中推荐的标准实践。