
本文介绍一种无需双重 for 循环的简洁方法,利用 `groupby().apply()` 的嵌套调用,将 dataframe 按多个列分组并转换为深度嵌套字典(如 `{col1: {col2: [{record}, ...]}}`,兼顾可读性与性能。
在数据处理中,常需将扁平化的 DataFrame 转换为结构化嵌套字典,以适配 API 请求、配置生成或前端树形渲染等场景。传统双重 for 循环虽直观,但代码冗长、可维护性差,且难以扩展至三层及以上层级。
Pandas 提供了更优雅的函数式方案:通过链式 groupby().apply() 实现多级嵌套。核心思路是逐层分组,并在最内层将子 DataFrame 转为记录列表(to_dict(orient='records')),外层则自动聚合为字典。
以下为推荐实现(兼容 pandas ≥ 1.3):
import pandas as pd
# 构造示例数据(同原问题)
a = pd.DataFrame([
{'col1': 'A', 'col2': 'Person 1', 'height': 1, 'weight': 10},
{'col1': 'A', 'col2': 'Person 1', 'height': 2, 'weight': 20},
{'col1': 'A', 'col2': 'Person 2', 'height': 4, 'weight': 40},
{'col1': 'B', 'col2': 'Person 1', 'height': 11, 'weight': 101},
{'col1': 'B', 'col2': 'Person 2', 'height': 41, 'weight': 401},
])
# ✅ 推荐:单行嵌套 groupby + apply
result = (
a.groupby('col1')
.apply(lambda x: x.groupby('col2').apply(lambda y: y.to_dict('records')))
.to_dict()
)该写法输出结构与原始双循环完全一致:外层键为 'col1' 值(如 'A'),中层键为 'col2' 值(如 'Person 1'),末层为对应分组的完整记录列表(含所有原始字段)。
⚠️ 注意事项:to_dict() 在 Series 上默认返回 {'index': value} 形式,但此处因 apply() 返回的是 pd.Series(索引为 col2 值,值为列表),调用 .to_dict() 会自动映射为 {col2_value: record_list},无需额外处理;若需支持 三层嵌套(如 col1 → col2 → col3),可继续嵌套:.groupby('col1').apply(...).groupby('col2').apply(...).groupby('col3').apply(...).to_dict(),但建议封装为递归函数提升可读性;对于超大数据集,apply 可能略慢于向量化操作;若仅需特定字段,可先用 [['col2', 'height', 'weight']] 选择列以减少内存开销。
总结:相比显式循环,此方法更符合 pandas 函数式编程范式,逻辑清晰、扩展性强,且一行核心代码即可完成多级结构构建,是生产环境中推荐的标准实践。










