0

0

Python数据整合:基于键值匹配高效合并字典列表

聖光之護

聖光之護

发布时间:2025-07-02 21:42:02

|

1040人浏览过

|

来源于php中文网

原创

python数据整合:基于键值匹配高效合并字典列表

本教程详细阐述了如何在Python中高效地将多个字典列表进行合并与数据补充。通过匹配特定键的值,我们可以将来自不同源列表(如listA和listB)的额外信息(如original_name和original_address)整合到主数据列表(dataList)的每个字典条目中,从而构建一个包含所有所需字段的全新字典列表。本文将提供实用的代码示例和最佳实践,帮助读者掌握此类数据整合技巧。

在数据处理过程中,我们经常会遇到需要从多个数据源整合信息以构建一个更完整数据集的场景。例如,你可能有一个包含核心记录的列表,以及其他包含补充属性的辅助列表。目标是根据共同的标识符(如名称或地址)将这些补充属性添加到核心记录中。

场景描述与挑战

假设我们有以下三个字典列表:

  • listA:包含 name 和 original_name,用于提供原始名称信息。
  • listB:包含 address 和 original_address,用于提供原始地址信息。
  • dataList:主数据列表,包含 id, created_at, name, address 等核心信息。

我们的任务是创建一个新的列表 finalList,它基于 dataList,但同时从 listA 中匹配 name 字段,并添加 original_name;从 listB 中匹配 address 字段,并添加 original_address。

原始数据示例如下:

立即学习Python免费学习笔记(深入)”;

Sesame AI
Sesame AI

一款开创性的语音AI伴侣,具备先进的自然对话能力和独特个性。

下载
listA = [
  {
    "name": "name sample 1",
    "original_name" : "original name sample 1",
  },
  {
    "name": "name sample 2",
    "original_name" : "original name sample 2",
  }
]

listB = [
  {
    "address": "address sample 1",
    "original_address" : "original address sample 1",
  },
  {
    "address": "address sample 2",
    "original_address" : "original address sample 2",
  }
]

dataList = [
  {
    "id": "1",
    "created_at": "date 1",
    "name": "name sample 1",
    "address": "address sample 1",
  },
  {
    "id": "2",
    "created_at": "date 2",
    "name": "name sample 2",
    "address": "address sample 2",
  }
]

期望的 finalList 结构应为:

finalList = [
  {
    "id": "1",
    "created_at": "date 1",
    "name": "name sample 1",
    "original_name" : "original name sample 1",
    "address": "address sample 1",
    "original_address" : "original address sample 1",
  },
  {
    "id": "2",
    "created_at": "date 2",
    "name": "name sample 2",
    "original_name" : "original name sample 2",
    "address": "address sample 2",
    "original_address" : "original address sample 2",
  }
]

解决方案:基于嵌套循环的匹配与更新

一种直观且有效的方法是利用 Python 的循环结构,遍历辅助列表,并在主列表中查找匹配项进行更新。为了避免修改原始 dataList,我们首先创建一个它的深拷贝。

核心思路

  1. 复制主列表:使用 copy 模块的 deepcopy 函数创建 dataList 的一个独立副本,作为我们最终操作的 finalList。
  2. 合并辅助列表:将 listA 和 listB 合并成一个迭代器(通过 listA + listB),这样可以一次性处理所有补充数据。
  3. 遍历并匹配更新
    • 对于合并后的每个辅助字典条目 (entry):
    • 判断 entry 中包含的是 name 还是 address 键,以确定其来源。
    • 根据判断结果,遍历 finalList 中的每个字典 (data)。
    • 如果 data 中相应的匹配键值与 entry 中的键值匹配,则将 entry 中对应的 original_ 字段添加到 data 中。

示例代码

from copy import deepcopy

# 原始数据定义 (与上述场景描述一致)
listA = [
  {"name": "name sample 1", "original_name" : "original name sample 1"},
  {"name": "name sample 2", "original_name" : "original name sample 2"}
]

listB = [
  {"address": "address sample 1", "original_address" : "original address sample 1"},
  {"address": "address sample 2", "original_address" : "original address sample 2"}
]

dataList = [
  {"id": "1", "created_at": "date 1", "name": "name sample 1", "address": "address sample 1"},
  {"id": "2", "created_at": "date 2", "name": "name sample 2", "address": "address sample 2"}
]

# 1. 创建dataList的深拷贝,避免修改原始数据
finalList = deepcopy(dataList)

# 2. 遍历listA和listB的合并结果
# 这种方式巧妙地将两个不同类型的补充数据统一处理
for entry in listA + listB:
    # 3. 根据entry中存在的键(name或address)进行判断
    if "name" in entry:
        # 如果是来自listA的条目,则匹配name并添加original_name
        for data in finalList:
            if data['name'] == entry['name']:
                data['original_name'] = entry['original_name']
    elif "address" in entry:
        # 如果是来自listB的条目,则匹配address并添加original_address
        for data in finalList:
            if data['address'] == entry['address']:
                data['original_address'] = entry['original_address']

# 打印结果,验证原始dataList未被修改,且finalList已包含所需信息
print("原始dataList (未修改):")
print(dataList)
print("\n合并后的finalList:")
print(finalList)

运行结果

原始dataList (未修改):
[{'id': '1', 'created_at': 'date 1', 'name': 'name sample 1', 'address': 'address sample 1'}, {'id': '2', 'created_at': 'date 2', 'name': 'name sample 2', 'address': 'address sample 2'}]

合并后的finalList:
[{'id': '1', 'created_at': 'date 1', 'name': 'name sample 1', 'address': 'address sample 1', 'original_name': 'original name sample 1', 'original_address': 'original address sample 1'}, {'id': '2', 'created_at': 'date 2', 'name': 'name sample 2', 'address': 'address sample 2', 'original_name': 'original name sample 2', 'original_address': 'original address sample 2'}]

注意事项与性能优化

上述方法对于小规模数据是有效且易于理解的。然而,当列表规模非常大时,嵌套循环的性能会成为瓶颈。其时间复杂度为 O(M * N),其中 M 是 listA + listB 的总长度,N 是 finalList 的长度。对于大型数据集,可以考虑以下优化策略:

1. 使用字典进行预处理(哈希映射)

将辅助列表转换为字典(哈希映射),以实现 O(1) 的平均查找时间。这将把整体时间复杂度降低到 O(M + N),因为预处理和最终遍历

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
mysql标识符无效错误怎么解决
mysql标识符无效错误怎么解决

mysql标识符无效错误的解决办法:1、检查标识符是否被其他表或数据库使用;2、检查标识符是否包含特殊字符;3、使用引号包裹标识符;4、使用反引号包裹标识符;5、检查MySQL的配置文件等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

210

2023.12.04

Python标识符有哪些
Python标识符有哪些

Python标识符有变量标识符、函数标识符、类标识符、模块标识符、下划线开头的标识符、双下划线开头、双下划线结尾的标识符、整型标识符、浮点型标识符等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

322

2024.02.23

java标识符合集
java标识符合集

本专题整合了java标识符相关内容,想了解更多详细内容,请阅读下面的文章。

292

2025.06.11

c++标识符介绍
c++标识符介绍

本专题整合了c++标识符相关内容,阅读专题下面的文章了解更多详细内容。

177

2025.08.07

PHP 高并发与性能优化
PHP 高并发与性能优化

本专题聚焦 PHP 在高并发场景下的性能优化与系统调优,内容涵盖 Nginx 与 PHP-FPM 优化、Opcode 缓存、Redis/Memcached 应用、异步任务队列、数据库优化、代码性能分析与瓶颈排查。通过实战案例(如高并发接口优化、缓存系统设计、秒杀活动实现),帮助学习者掌握 构建高性能PHP后端系统的核心能力。

112

2025.10.16

PHP 数据库操作与性能优化
PHP 数据库操作与性能优化

本专题聚焦于PHP在数据库开发中的核心应用,详细讲解PDO与MySQLi的使用方法、预处理语句、事务控制与安全防注入策略。同时深入分析SQL查询优化、索引设计、慢查询排查等性能提升手段。通过实战案例帮助开发者构建高效、安全、可扩展的PHP数据库应用系统。

99

2025.11.13

JavaScript 性能优化与前端调优
JavaScript 性能优化与前端调优

本专题系统讲解 JavaScript 性能优化的核心技术,涵盖页面加载优化、异步编程、内存管理、事件代理、代码分割、懒加载、浏览器缓存机制等。通过多个实际项目示例,帮助开发者掌握 如何通过前端调优提升网站性能,减少加载时间,提高用户体验与页面响应速度。

36

2025.12.30

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

97

2026.03.06

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

3

2026.03.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 4.9万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号