0

0

Python中基于键值匹配的多列表字典数据合并与扩展

DDD

DDD

发布时间:2025-07-02 21:02:16

|

225人浏览过

|

来源于php中文网

原创

python中基于键值匹配的多列表字典数据合并与扩展

Python中基于键值匹配的多列表字典数据合并与扩展教程。本教程详细讲解如何在Python中将多个列表(包含字典数据)进行高效合并与扩展。通过匹配特定键的值,我们将演示如何从源列表提取信息(如original_name和original_address)并将其添加到目标列表的相应字典条目中,最终生成一个包含更丰富数据的列表。文章将提供示例代码,并探讨不同实现方式的效率考量。

在数据处理和集成场景中,我们经常需要将分散在不同数据源中的信息合并到一个统一的结构中。特别是在处理列表嵌套字典的数据格式时,根据特定键值进行匹配并扩展现有数据是一项常见的操作。本教程将深入探讨如何在Python中高效地实现这一目标。

场景描述与问题定义

假设我们有以下三个列表,每个列表都包含一系列字典:

  1. listA: 包含名称及其原始名称信息。
    listA = [
      {"name": "name sample 1", "original_name" : "original name sample 1"},
      {"name": "name sample 2", "original_name" : "original name sample 2"},
      # ... 更多数据
    ]
  2. listB: 包含地址及其原始地址信息。
    listB = [
      {"address": "address sample 1", "original_address" : "original address sample 1"},
      {"address": "address sample 2", "original_address" : "original address sample 2"},
      # ... 更多数据
    ]
  3. dataList: 我们的主数据列表,包含ID、创建时间、名称和地址。
    dataList = [
      {"id": "1", "created_at": "date 1", "name": "name sample 1", "address": "address sample 1"},
      {"id": "2", "created_at": "date 2", "name": "name sample 2", "address": "address sample 2"},
      # ... 更多数据
    ]

我们的目标是创建一个新的列表 finalList,它基于 dataList 的内容,并通过以下规则进行数据扩展:

  • 对于 dataList 中的每个字典,如果其 name 键的值与 listA 中某个字典的 name 键值匹配,则将 listA 中对应字典的 original_name 值添加到 dataList 的当前字典中。
  • 同样,如果其 address 键的值与 listB 中某个字典的 address 键值匹配,则将 listB 中对应字典的 original_address 值添加到 dataList 的当前字典中。

最终 finalList 期望的结构如下:

立即学习Python免费学习笔记(深入)”;

飞书多维表格
飞书多维表格

表格形态的AI工作流搭建工具,支持批量化的AI创作与分析任务,接入DeepSeek R1满血版

下载
finalList = [
  {
    "id": "1",
    "created_at": "date 1",
    "name": "name sample 1",
    "original_name" : "original name sample 1",
    "address": "address sample 1",
    "original_address" : "original address sample 1",
  },
  # ...
]

解决方案一:基于嵌套循环的直接合并

这种方法直观且易于理解,适用于数据量不大的场景。其核心思想是遍历目标列表的每个元素,然后分别遍历源列表以查找匹配项并更新数据。

实现步骤

  1. 创建副本: 由于我们希望生成一个新的列表而不是修改原始的 dataList,首先使用 copy.deepcopy 创建 dataList 的一个深拷贝作为 finalList。
  2. 合并源列表: 将 listA 和 listB 合并成一个迭代器,这样可以统一处理两种类型的匹配。
  3. 嵌套循环: 外层循环遍历合并后的源列表中的每个条目,内层循环遍历 finalList 中的每个数据条目。
  4. 条件匹配与更新: 在内层循环中,根据源条目包含的键(name 或 address)来判断匹配类型,然后查找 finalList 中对应的数据条目,如果匹配成功则添加或更新 original_name 或 original_address。

示例代码

from copy import deepcopy

listA = [
  {"name": "name sample 1", "original_name" : "original name sample 1"},
  {"name": "name sample 2", "original_name" : "original name sample 2"},
]

listB = [
  {"address": "address sample 1", "original_address" : "original address sample 1"},
  {"address": "address sample 2", "original_address" : "original address sample 2"},
]

dataList = [
  {"id": "1", "created_at": "date 1", "name": "name sample 1", "address": "address sample 1"},
  {"id": "2", "created_at": "date 2", "name": "name sample 2", "address": "address sample 2"},
]

# 1. 创建dataList的深拷贝,避免修改原始数据
finalList = deepcopy(dataList)

# 2. 遍历listA和listB中的所有条目
for entry in listA + listB:
    # 3. 根据条目中存在的键进行匹配
    if "name" in entry:
        # 4. 遍历finalList,查找匹配的name
        for data_item in finalList:
            if data_item.get('name') == entry['name']:
                data_item['original_name'] = entry['original_name']
                # 找到匹配后可以跳出内层循环,如果name是唯一的
                # break 
    elif "address" in entry:
        # 5. 遍历finalList,查找匹配的address
        for data_item in finalList:
            if data_item.get('address') == entry['address']:
                data_item['original_address'] = entry['original_address']
                # 找到匹配后可以跳出内层循环,如果address是唯一的
                # break

print("--- 原始 dataList ---")
print(dataList)
print("\n--- 合并后的 finalList ---")
print(finalList)

代码解析与注意事项

  • from copy import deepcopy: deepcopy 用于创建列表及其内部所有字典的完全独立副本。如果只使用 finalList = dataList[:] 或 finalList = list(dataList),则只会创建浅拷贝,内部字典仍然是共享的引用,修改 finalList 中的字典会影响 dataList。
  • for entry in listA + listB::这种方式将两个列表连接起来,使得我们可以统一处理来自不同源的数据。
  • data_item.get('name'): 使用 .get() 方法访问字典键是一个好习惯,可以避免在键不存在时抛出 KeyError。
  • 效率考量: 这种方法的时间复杂度较高。如果 len(listA) 为 M,len(listB) 为 N,len(dataList) 为 K,那么最坏情况下,总操作数约为 (M + N) * K。对于大型数据集,这可能导致性能瓶颈。

解决方案二:基于哈希映射(字典)的优化合并

为了提高数据量较大时的性能,我们可以利用哈希表(Python中的字典)进行 O(1) 平均时间复杂度的查找。这种方法的核心思想是预先将 listA 和 listB 转换为查找字典,然后只需遍历 dataList 一次即可完成数据扩展。

实现步骤

  1. 构建查找字典:
    • 从 listA 构建一个 name_map,其中键是 name,值是 original_name。
    • 从 listB 构建一个 address_map,其中键是 address,值是 original_address。
  2. 遍历并更新: 再次创建 dataList 的深拷贝作为 finalList。然后,遍历 finalList 中的每个字典,使用 name_map 和 address_map 直接查找并添加 original_name 和 original_address。

示例代码

from copy import deepcopy

listA = [
  {"name": "name sample 1", "original_name" : "original name sample 1"},
  {"name": "name sample 2", "original_name" : "original name sample 2"},
]

listB = [
  {"address": "address sample 1", "original_address" : "original address sample 1"},
  {"address": "address sample 2", "original_address" : "original address sample 2"},
]

dataList = [
  {"id": "1", "created_at": "date 1", "name": "name sample 1", "address": "address sample 1"},
  {"id": "2", "created_at": "date 2", "name": "name sample 2", "address": "address sample 2"},
]

# 1. 构建查找字典
name_map = {item['name']: item['original_name'] for item in listA}
address_map = {item['address']: item['original_address'] for item in listB}

# 2. 创建dataList的深拷贝
finalList = deepcopy(dataList)

# 3. 遍历finalList并使用查找字典进行更新
for data_item in finalList:
    # 查找并添加 original_name
    name_key = data_item.get('name')
    if name_key in name_map:
        data_item['original_name'] = name_map[name_key]

    # 查找并添加 original_address
    address_key = data_item.get('address')
    if address_key in address_map:
        data_item['original_address'] = address_map[address_key]

print("--- 原始 dataList ---")
print(dataList)
print("\n--- 合并后的 finalList (优化版) ---")
print(finalList)

代码解析与性能分析

  • name_map = {item['name']: item['original_name'] for item in listA}: 这是一个字典推导式,高效地将 listA 转换为一个以 name 为键、original_name 为值的字典。address_map 的构建同理。
  • 效率显著提升:
    • 构建 name_map 的时间复杂度为 O(len(listA))。
    • 构建 address_map 的时间复杂度为 O(len(listB))。
    • 遍历 finalList 并进行字典查找的时间复杂度为 O(len(dataList)) (平均情况下字典查找为 O(1))。
    • 因此,总时间复杂度为 O(len(listA) + len(listB) + len(dataList)),这比嵌套循环的方法效率高得多,尤其是在 dataList 非常大的情况下。

重要注意事项

  1. 键的唯一性: 优化方法要求用于构建查找字典的键(如 name 在 listA 中,address 在 listB 中)是唯一的。如果存在重复键,字典推导式会覆盖先前的值,只保留最后一个。如果需要处理重复键的复杂逻辑,可能需要更精细的映射结构(例如,值是一个列表)。
  2. 缺失匹配: 如果 dataList 中的某个 name 或 address 在对应的查找字典中不存在,则 original_name 或 original_address 不会被添加到 finalList 中。这是当前逻辑的默认行为。如果需要为缺失项设置默认值(例如 None 或空字符串),可以在 if name_key in name_map: 块的 else 分支中添加赋值操作。
  3. 数据规模: 对于非常小的数据集(例如,每个列表只有几十个元素),两种方法的性能差异可能不明显。但随着数据量的增长,基于哈希映射的优化方法将展现出压倒性的性能优势。
  4. 内存消耗: 构建查找字典会消耗额外的内存,其大小取决于源列表中唯一键的数量。在极端内存受限的场景下,这可能是需要考虑的因素,但通常情况下,其性能收益远大于内存开销。

总结与最佳实践

本教程介绍了两种在Python中合并和扩展列表字典数据的方法:基于嵌套循环的直接合并和基于哈希映射的优化合并。

  • 嵌套循环法简单直观,适用于小规模数据集。
  • 哈希映射法通过预处理源数据为查找字典,显著提升了大规模数据集的合并效率,是处理此类数据集成任务的首选方法。

在实际开发中,根据您的数据规模、性能要求以及对键唯一性的假设,选择最适合的方案至关重要。通常,推荐优先考虑哈希映射的优化方法,因为它提供了更好的可伸缩性和性能。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
if什么意思
if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词,用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章,供大家免费阅读。

846

2023.08.22

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

760

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

221

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1566

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

649

2023.11.24

java读取文件转成字符串的方法
java读取文件转成字符串的方法

Java8引入了新的文件I/O API,使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java,可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中,你需要将文件路径替换为你的实际文件路径,并且可能需要处理可能的IOException异常。想了解更多java的相关内容,可以阅读本专题下面的文章。

1228

2024.03.22

php中定义字符串的方式
php中定义字符串的方式

php中定义字符串的方式:单引号;双引号;heredoc语法等等。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

1184

2024.04.29

go语言字符串相关教程
go语言字符串相关教程

本专题整合了go语言字符串相关教程,阅读专题下面的文章了解更多详细内容。

192

2025.07.29

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

76

2026.03.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 4.9万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号