Python数据整合：基于键值匹配高效合并字典列表

聖光之護

发布时间：2025-07-02 21:42:02

1040人浏览过

来源于php中文网

原创

python数据整合：基于键值匹配高效合并字典列表

本教程详细阐述了如何在Python中高效地将多个字典列表进行合并与数据补充。通过匹配特定键的值，我们可以将来自不同源列表（如listA和listB）的额外信息（如original_name和original_address）整合到主数据列表（dataList）的每个字典条目中，从而构建一个包含所有所需字段的全新字典列表。本文将提供实用的代码示例和最佳实践，帮助读者掌握此类数据整合技巧。

在数据处理过程中，我们经常会遇到需要从多个数据源整合信息以构建一个更完整数据集的场景。例如，你可能有一个包含核心记录的列表，以及其他包含补充属性的辅助列表。目标是根据共同的标识符（如名称或地址）将这些补充属性添加到核心记录中。

场景描述与挑战

假设我们有以下三个字典列表：

listA：包含 name 和 original_name，用于提供原始名称信息。
listB：包含 address 和 original_address，用于提供原始地址信息。
dataList：主数据列表，包含 id, created_at, name, address 等核心信息。

我们的任务是创建一个新的列表 finalList，它基于 dataList，但同时从 listA 中匹配 name 字段，并添加 original_name；从 listB 中匹配 address 字段，并添加 original_address。

原始数据示例如下：

立即学习“Python免费学习笔记（深入）”；

SpeechEasy

SpeechEasy是一种合成语音解决方案，可以让用户从文本生成高质量、易于理解的音频。

下载

listA = [
  {
    "name": "name sample 1",
    "original_name" : "original name sample 1",
  },
  {
    "name": "name sample 2",
    "original_name" : "original name sample 2",
  }
]

listB = [
  {
    "address": "address sample 1",
    "original_address" : "original address sample 1",
  },
  {
    "address": "address sample 2",
    "original_address" : "original address sample 2",
  }
]

dataList = [
  {
    "id": "1",
    "created_at": "date 1",
    "name": "name sample 1",
    "address": "address sample 1",
  },
  {
    "id": "2",
    "created_at": "date 2",
    "name": "name sample 2",
    "address": "address sample 2",
  }
]

期望的 finalList 结构应为：

finalList = [
  {
    "id": "1",
    "created_at": "date 1",
    "name": "name sample 1",
    "original_name" : "original name sample 1",
    "address": "address sample 1",
    "original_address" : "original address sample 1",
  },
  {
    "id": "2",
    "created_at": "date 2",
    "name": "name sample 2",
    "original_name" : "original name sample 2",
    "address": "address sample 2",
    "original_address" : "original address sample 2",
  }
]

解决方案：基于嵌套循环的匹配与更新

一种直观且有效的方法是利用 Python 的循环结构，遍历辅助列表，并在主列表中查找匹配项进行更新。为了避免修改原始 dataList，我们首先创建一个它的深拷贝。

核心思路

复制主列表：使用 copy 模块的 deepcopy 函数创建 dataList 的一个独立副本，作为我们最终操作的 finalList。
合并辅助列表：将 listA 和 listB 合并成一个迭代器（通过 listA + listB），这样可以一次性处理所有补充数据。
遍历并匹配更新：
- 对于合并后的每个辅助字典条目 (entry)：
- 判断 entry 中包含的是 name 还是 address 键，以确定其来源。
- 根据判断结果，遍历 finalList 中的每个字典 (data)。
- 如果 data 中相应的匹配键值与 entry 中的键值匹配，则将 entry 中对应的 original_ 字段添加到 data 中。

示例代码

from copy import deepcopy

# 原始数据定义 (与上述场景描述一致)
listA = [
  {"name": "name sample 1", "original_name" : "original name sample 1"},
  {"name": "name sample 2", "original_name" : "original name sample 2"}
]

listB = [
  {"address": "address sample 1", "original_address" : "original address sample 1"},
  {"address": "address sample 2", "original_address" : "original address sample 2"}
]

dataList = [
  {"id": "1", "created_at": "date 1", "name": "name sample 1", "address": "address sample 1"},
  {"id": "2", "created_at": "date 2", "name": "name sample 2", "address": "address sample 2"}
]

# 1. 创建dataList的深拷贝，避免修改原始数据
finalList = deepcopy(dataList)

# 2. 遍历listA和listB的合并结果
# 这种方式巧妙地将两个不同类型的补充数据统一处理
for entry in listA + listB:
    # 3. 根据entry中存在的键（name或address）进行判断
    if "name" in entry:
        # 如果是来自listA的条目，则匹配name并添加original_name
        for data in finalList:
            if data['name'] == entry['name']:
                data['original_name'] = entry['original_name']
    elif "address" in entry:
        # 如果是来自listB的条目，则匹配address并添加original_address
        for data in finalList:
            if data['address'] == entry['address']:
                data['original_address'] = entry['original_address']

# 打印结果，验证原始dataList未被修改，且finalList已包含所需信息
print("原始dataList (未修改):")
print(dataList)
print("\n合并后的finalList:")
print(finalList)

运行结果

原始dataList (未修改):
[{'id': '1', 'created_at': 'date 1', 'name': 'name sample 1', 'address': 'address sample 1'}, {'id': '2', 'created_at': 'date 2', 'name': 'name sample 2', 'address': 'address sample 2'}]

合并后的finalList:
[{'id': '1', 'created_at': 'date 1', 'name': 'name sample 1', 'address': 'address sample 1', 'original_name': 'original name sample 1', 'original_address': 'original address sample 1'}, {'id': '2', 'created_at': 'date 2', 'name': 'name sample 2', 'address': 'address sample 2', 'original_name': 'original name sample 2', 'original_address': 'original address sample 2'}]

注意事项与性能优化

上述方法对于小规模数据是有效且易于理解的。然而，当列表规模非常大时，嵌套循环的性能会成为瓶颈。其时间复杂度为 O(M * N)，其中 M 是 listA + listB 的总长度，N 是 finalList 的长度。对于大型数据集，可以考虑以下优化策略：

1. 使用字典进行预处理（哈希映射）

将辅助列表转换为字典（哈希映射），以实现 O(1) 的平均查找时间。这将把整体时间复杂度降低到 O(M + N)，因为预处理和最终遍历

Python asyncio.Queue 如何实现优先级队列

Python 如何让一个类支持解包赋值（像 tuple 那样）

Python requests.Session() 复用连接池的真实效果与限制

如何用Python编写一个翻转布尔值列表的脚本

Julia 中如何在结构体内部预处理数据：自定义内联构造函数教程

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

773

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

684

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

765

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

699

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1405

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

570

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

751

2023.08.11