0

0

高效将Pandas DataFrame转换为嵌套字典的技巧

花韻仙語

花韻仙語

发布时间:2025-09-12 11:12:20

|

788人浏览过

|

来源于php中文网

原创

高效将Pandas DataFrame转换为嵌套字典的技巧

本文探讨如何高效地将Pandas DataFrame转换为一个嵌套字典结构,其中包含两层键和列表值。通过对比传统iterrows方法,我们重点介绍并演示了利用collections.defaultdict和df.values进行扩展解包的优化方案,该方案能显著提升代码的简洁性和执行效率,尤其适用于处理大型数据集。

在数据处理中,我们经常需要将结构化的表格数据(如pandas dataframe)转换为更灵活的嵌套字典格式,以便于后续的数据查询或业务逻辑处理。一个常见的需求是,将dataframe中的两列作为嵌套字典的键,而其余列的值则聚合为一个列表作为最内层字典的值。

原始实现与局限

考虑一个包含公司(Company)、产品(Product)以及相关生产数据(Production Cost, Development Time, Launch Year)的DataFrame。我们的目标是创建一个字典,其中外层键是公司名,内层键是产品名,对应的值是生产数据的列表。

以下是使用df.iterrows()方法实现这一目标的常见代码:

import pandas as pd

# 示例DataFrame,通常从Excel文件读取
df = pd.DataFrame({
    "Company": ["TechCorp", "Innovate Inc", "Green Solutions", "Future Dynamics"],
    "Product": ["TC100", "IN200", "GS300", "FD400"],
    "Production Cost": [10000, 15000, 12000, 18000],
    "Development Time": [6, 9, 8, 12],
    "Launch Year": [2023, 2024, 2023, 2025]
})

nested_dict = {}
for index, row in df.iterrows():
    company = row['Company']
    product = row['Product']
    # 提取其他列的值并转换为列表
    values = row[['Production Cost', 'Development Time', 'Launch Year']].tolist()

    if company not in nested_dict:
        nested_dict[company] = {}
    nested_dict[company][product] = values

print(nested_dict)

这段代码能够正确生成所需的嵌套字典结构:

{'TechCorp': {'TC100': [10000, 6, 2023]}, 'Innovate Inc': {'IN200': [15000, 9, 2024]}, 'Green Solutions': {'GS300': [12000, 8, 2023]}, 'Future Dynamics': {'FD400': [18000, 12, 2025]}}

然而,df.iterrows()在处理大型DataFrame时效率相对较低。每次迭代都会返回一个Series对象,这涉及到额外的开销。同时,手动检查字典中是否存在外层键 (if company not in nested_dict:) 增加了代码的冗余。

优化方案:Defaultdict与df.values的结合

为了提高效率并简化代码,我们可以利用Python标准库collections中的defaultdict和Pandas DataFrame的底层NumPy数组表示df.values。

  1. collections.defaultdict: defaultdict是dict的一个子类,它允许在访问不存在的键时自动创建该键并赋予一个默认值。在本例中,我们可以将defaultdict(dict)作为外层字典,这样当遇到新的公司名时,会自动创建一个空的内层字典。
  2. df.values与扩展解包: df.values属性返回DataFrame中所有数据的NumPy数组表示。直接遍历这个数组比iterrows()更高效。通过使用Python的扩展解包(*操作符),我们可以方便地将一行中的前几个元素分配给特定变量,而将剩余的所有元素收集到一个列表中。

以下是优化后的代码实现:

NatAgent
NatAgent

AI数据情报监测与分析平台

下载
from collections import defaultdict
import pandas as pd

# 示例DataFrame
df = pd.DataFrame({
    "Company": ["TechCorp", "Innovate Inc", "Green Solutions", "Future Dynamics"],
    "Product": ["TC100", "IN200", "GS300", "FD400"],
    "Production Cost": [10000, 15000, 12000, 18000],
    "Development Time": [6, 9, 8, 12],
    "Launch Year": [2023, 2024, 2023, 2025]
})

# 为了演示defaultdict的优势,我们添加一个TechCorp的新产品
df.loc[len(df)] = ['TechCorp', 'TC200', 20000, 12, 2025]

nested_dict = defaultdict(dict)
# 遍历df.values,使用扩展解包
for company, product, *values in df.values:
    nested_dict[company][product] = values

print(dict(nested_dict)) # 将defaultdict转换为普通dict以便输出

代码解析:

  • nested_dict = defaultdict(dict):初始化一个defaultdict,其默认工厂函数是dict。这意味着如果nested_dict中尝试访问一个不存在的company键,它会自动创建一个空的普通字典作为该键的值。
  • for company, product, *values in df.values::
    • df.values将DataFrame转换为一个NumPy数组。
    • 每次迭代获取数组中的一行。
    • company和product分别捕获行的前两个元素。
    • *values是Python的扩展解包语法,它会收集行中剩余的所有元素,并将它们作为一个列表赋值给values变量。这完美匹配了我们的需求,即其余列的值作为一个列表。

优化后的输出(包含新增数据):

{
 'TechCorp': {'TC100': [10000, 6, 2023], 'TC200': [20000, 12, 2025]},
 'Innovate Inc': {'IN200': [15000, 9, 2024]},
 'Green Solutions': {'GS300': [12000, 8, 2023]},
 'Future Dynamics': {'FD400': [18000, 12, 2025]}
}

可以看到,TechCorp下的两个产品及其数据都被正确地聚合到了同一个外层字典中,证明了defaultdict的有效性。

注意事项

  • 列顺序的重要性: 使用df.values时,数据的顺序至关重要。确保DataFrame中作为键的列(Company, Product)位于需要作为值列表的列之前。如果列顺序不符合预期,需要在使用df.values前对DataFrame进行列重排。
  • 性能提升: 对于大型数据集,直接遍历df.values通常比iterrows()快得多,因为df.values操作直接在NumPy数组上进行,避免了Pandas Series对象的创建开销。
  • 代码简洁性: defaultdict消除了手动检查键是否存在的if语句,使得代码更加简洁和易读。扩展解包也极大地简化了值列表的创建过程。
  • 数据类型: df.values返回的NumPy数组中的元素会保留其原始数据类型。在大多数情况下,这不会有问题,但如果需要特定类型转换,可能需要在*values捕获后进行处理。

总结

通过巧妙地结合collections.defaultdict和df.values的扩展解包功能,我们可以显著优化从Pandas DataFrame构建复杂嵌套字典的过程。这种方法不仅提升了代码的执行效率,尤其是在处理大规模数据时,还增强了代码的简洁性和可读性,是Python数据处理中值得推荐的实践。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

68

2025.12.04

数据类型有哪几种
数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

310

2023.10.31

php数据类型
php数据类型

本专题整合了php数据类型相关内容,阅读专题下面的文章了解更多详细内容。

222

2025.10.31

if什么意思
if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词,用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章,供大家免费阅读。

779

2023.08.22

C++类型转换方式
C++类型转换方式

本专题整合了C++类型转换相关内容,想了解更多相关内容,请阅读专题下面的文章。

301

2025.07.15

C++ 设计模式与软件架构
C++ 设计模式与软件架构

本专题深入讲解 C++ 中的常见设计模式与架构优化,包括单例模式、工厂模式、观察者模式、策略模式、命令模式等,结合实际案例展示如何在 C++ 项目中应用这些模式提升代码可维护性与扩展性。通过案例分析,帮助开发者掌握 如何运用设计模式构建高质量的软件架构,提升系统的灵活性与可扩展性。

9

2026.01.30

c++ 字符串格式化
c++ 字符串格式化

本专题整合了c++字符串格式化用法、输出技巧、实践等等内容,阅读专题下面的文章了解更多详细内容。

9

2026.01.30

java 字符串格式化
java 字符串格式化

本专题整合了java如何进行字符串格式化相关教程、使用解析、方法详解等等内容。阅读专题下面的文章了解更多详细教程。

10

2026.01.30

python 字符串格式化
python 字符串格式化

本专题整合了python字符串格式化教程、实践、方法、进阶等等相关内容,阅读专题下面的文章了解更多详细操作。

3

2026.01.30

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Excel 教程
Excel 教程

共162课时 | 14.5万人学习

成为PHP架构师-自制PHP框架
成为PHP架构师-自制PHP框架

共28课时 | 2.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号