高效合并两个超长有序列表（仅少数差异项）

心靈之曲

发布时间：2026-02-08 16:25:45

695人浏览过

来源于php中文网

原创

高效合并两个超长有序列表（仅少数差异项）

本文介绍如何在python中高效合并两个各含2000万+元素、已排序且仅有少量差异的列表，避免o(n log n)排序开销，通过`heapq.merge`与`dict.fromkeys`实现近线性时间复杂度的去重合并。

当处理规模达千万级以上的有序列表时，常规的 sorted(set(list_1 + list_2)) 或 sorted(set(list_1) | set(list_2)) 方案会严重低效——根本原因在于：
✅ 你已拥有两个严格升序排列的输入列表；
❌ 却仍调用 sorted() 对总计约4000万个元素进行全量排序，时间复杂度为 O(N log N) ≈ O(4×10⁷ × log₂(4×10⁷))，实测耗时50分钟即源于此；
❌ 同时，set() 构造过程不仅丢失顺序，还需对全部元素哈希、判重、重新分配内存，进一步加剧开销。

真正高效的解法应尊重输入的有序性，采用归并（merge）思想：

✅ 推荐方案：heapq.merge + dict.fromkeys

import heapq

# 假设 list_1 和 list_2 均为升序、元素可哈希（如 str/int）
combined = list(dict.fromkeys(heapq.merge(list_1, list_2)))

heapq.merge(list_1, list_2)：以 O(N) 时间复杂度流式归并两个有序序列（类似归并排序中的“合并”步骤），输出一个惰性迭代器，不一次性加载全部数据到内存；
dict.fromkeys(...)：利用 Python 3.7+ 中 dict 保持插入顺序的特性，实现稳定去重（保留首次出现位置），时间复杂度 O(N)，且比 set() + sorted() 更轻量；
list(...)：最终转为列表（若后续需随机访问）。

? 示例验证：list_1 = ['a', 'b', 'c', 'x'] list_2 = ['a', 'b', 'd', 'y'] combined = list(dict.fromkeys(heapq.merge(list_1, list_2))) # → ['a', 'b', 'c', 'd', 'x', 'y']

⚠️ 关键注意事项

输入必须严格有序：heapq.merge 不校验顺序，若输入乱序，结果将错误；
元素需可哈希：dict.fromkeys 要求键值可哈希（常见类型如 str, int, tuple 等均满足）；
内存友好性：heapq.merge 返回迭代器，dict.fromkeys 逐个消费，整体内存占用远低于构造完整 set 或临时大列表；
无需额外安装依赖：纯标准库方案，零第三方依赖。

? 性能对比（估算）

方法	时间复杂度	实测典型耗时（2000万级）	内存峰值
sorted(set(list_1 + list_2))	O(N log N)	~50 分钟	极高（临时列表 + set）
heapq.merge + dict.fromkeys	O(N)		低（流式处理 + 单次遍历）

✅ 进阶建议（超大规模场景）

若列表过大导致单机内存仍紧张，可考虑：

AimiAD

通过 AimiAD 让您的 AI 应用开始赚钱

下载

使用生成器分块处理（如每次归并100万项后写入磁盘）；
利用 itertools.islice 流式截取结果前N项（如只需Top-K）；
对于不可哈希元素（如嵌套字典），改用 itertools.groupby 配合 sorted(..., key=...) 归并后去重（需自定义键函数）。

综上，善用输入的有序性是性能跃迁的关键。抛弃“先拼接、再去重、最后排序”的惯性思维，转向 merge → dedupe 的流式范式，即可将数十分钟任务压缩至秒级，同时显著降低资源消耗。

如何在 Python 中将原始字节加载为 DH 公钥并计算共享密钥

Python 内置 max() 函数为何比手动循环更高效？

Python脚本在命令行中运行后闪退的解决方法

提取 HS 编码前的描述性文本：正则表达式精准分割教程

Python 内置 max() 函数的性能优势与最佳实践

相关标签:

python 内存占用排列标准库归并排序 int

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：计算 Pandas 中人员在园区内停留的总天数下一篇：暂无

作者最新文章

菜鸡云游戏如何领取免费时长

2026-02-07 16:28

蛙漫2漫画入口官网在哪

2026-02-07 16:32

嘀嗒出行车主认证要多久

2026-02-07 16:34

实现 iframe 滚动时顶部吸附并渐进缩放的响应式布局教程

2026-02-07 16:35

简化多组展开/收起按钮的交互逻辑：用 jQuery 一行绑定实现批量控制

2026-02-07 16:53

JavaScript 动态创建元素后立即消失的解决方案

2026-02-07 16:54

如何用字典映射和异常处理精简 Python 计算器代码

2026-02-07 17:00

如何在 PHP 中正确累加多维数组中所有数值并计算总和

2026-02-07 17:04

如何在 PHP 中高效查找 JSON 地理数据中距离最近的站点 ID

2026-02-07 17:10

如何正确累加多维数组中所有价格值并计算总金额

2026-02-07 17:27

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

string转int

在编程中，我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算，或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

626

2023.08.02

int占多少字节

int占4个字节，意味着一个int变量可以存储范围在-2,147,483,648到2,147,483,647之间的整数值，在某些情况下也可能是2个字节或8个字节，int是一种常用的数据类型，用于表示整数，需要根据具体情况选择合适的数据类型，以确保程序的正确性和性能。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

552

2024.08.29