Python 中处理 JSON 重复键并合并值的完整教程

聖光之護

发布时间：2026-02-16 22:05:08

524人浏览过

来源于php中文网

原创

Python 中处理 JSON 重复键并合并值的完整教程

本文介绍如何在 Python 中解析含重复键的 JSON 字符串，将相同键对应的所有值用分号连接为单一字符串，生成标准字典结构。核心方法是利用 json.loads 的 object_pairs_hook 参数配合 itertools.groupby 实现键值聚合。

本文介绍如何在 python 中解析含重复键的 json 字符串，将相同键对应的所有值用分号连接为单一字符串，生成标准字典结构。核心方法是利用 `json.loads` 的 `object_pairs_hook` 参数配合 `itertools.groupby` 实现键值聚合。

在标准 JSON 规范中，对象（object）不允许存在重复键；但实际开发中（尤其在 API 响应、日志数据或遗留系统导出文件中），常会遇到人为构造或解析异常导致的重复键 JSON。Python 默认的 json.loads() 仅保留最后一个同名键的值，直接丢失其余数据。若需保留全部值并按指定分隔符合并，必须绕过默认行为，接管键值对的解析过程。

关键在于使用 json.loads() 的 object_pairs_hook 参数——它允许传入一个函数，接收原始 JSON 解析出的有序键值对列表（list of tuples），而非默认的 dict。这为我们提供了对重复键进行分组与聚合的机会。

以下是一个健壮、可复用的解决方案：

from itertools import groupby
import json

def merge_duplicates(pairs):
    """
    将键值对列表按 key 分组，对每个 key 的所有 value 用 ';' 连接
    注意：groupby 要求输入已按 key 排序
    """
    sorted_pairs = sorted(pairs, key=lambda x: x[0])
    for key, group in groupby(sorted_pairs, key=lambda x: x[0]):
        values = [value for _, value in group]
        yield key, ';'.join(values)

def parse_json_with_merged_keys(json_str):
    """
    解析含重复键的 JSON 字符串，自动合并同 key 的 value（以 ';' 分隔）
    """
    return json.loads(json_str, object_pairs_hook=lambda pairs: dict(merge_duplicates(pairs)))

# 示例使用
input_json = '''
{
  "1061": "GROCERY",
  "1073": "GM-HBC",
  "4220": "PRODUCE",
  "958": "MEAT",
  "958": "DAIRY",
  "958": "FROZEN"
}
'''

result = parse_json_with_merged_keys(input_json)
print(result)
# 输出: {'1061': 'GROCERY', '1073': 'GM-HBC', '4220': 'PRODUCE', '958': 'DAIRY;FROZEN;MEAT'}

✅ 工作原理说明：

灵办AI

免费一键快速抠图，支持下载高清图片

下载

立即学习“Python免费学习笔记（深入）”；

json.loads(..., object_pairs_hook=...) 确保原始键值对顺序被完整传递（不被 dict 自动去重）；
sorted(pairs, key=lambda x: x[0]) 按键升序排序，满足 groupby 的分组前提；
groupby(..., key=lambda x: x[0]) 将相同键的元组归为一组；
';'.join(...) 高效拼接所有对应值，支持任意数量重复键。

⚠️ 注意事项：

该方法不修改原始 JSON 字符串，仅影响解析逻辑；
若原始 JSON 中 value 本身含分号（;），需提前转义或改用其他分隔符（如 '|' 或 '\n'），并在业务层做好兼容；
object_pairs_hook 在 Python 3.7+ 中稳定支持，无需额外依赖；
对于超大 JSON 文件，建议结合 json.JSONDecoder 流式解析以控制内存占用。

? 进阶提示：
如需支持自定义分隔符或空值过滤，可扩展 merge_duplicates 函数：

def merge_duplicates(pairs, separator=';', skip_none=True):
    sorted_pairs = sorted(pairs, key=lambda x: x[0])
    for key, group in groupby(sorted_pairs, key=lambda x: x[0]):
        values = [v for _, v in group if not (skip_none and v is None)]
        yield key, separator.join(values)

通过此方案，你能在保持代码简洁的同时，精准解决“重复键值合并”这一典型数据清洗需求，适用于 ETL、API 数据标准化及配置文件预处理等场景。

Python 配置变更的 diff 与审计日志

Python 中 sorted 的 key 参数如何通过元组实现多级排序

Python asgi 的 lifespan 协议使用

Python .pth 文件解析机制详解：路径添加与内联代码的自动识别规则

Python 中 sorted() 的 key 参数如何通过元组实现多级排序

相关标签:

python js json json Object 字符串 Lambda 对象 etl

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何用 NumPy 向量化替代 for 循环大幅提升 DRT 阻抗反演计算性能下一篇：暂无

作者最新文章

如何使用 Byte Buddy 在 Java Agent 中动态修改类的父类

2026-02-14 09:51

如何在 Go 语言中将带时分秒的日期字符串转换为 Unix 时间戳（秒级）

2026-02-14 09:51

OpenCV Python 中精准检测图像直线的完整教程

2026-02-14 10:11

如何让锚点内的子元素（如按钮）脱离链接交互

2026-02-14 10:22

实现可重复拖拽的 JavaScript 拖放模板（不移除源元素）

2026-02-14 10:29

如何安全访问 React 中异步获取的嵌套 API 数据

2026-02-14 10:30

如何在 React 中实现卡片高度的动态自适应对齐

2026-02-14 10:35

jQuery 与 Go 后端交互时如何正确设置 JSON 请求头

2026-02-14 10:35

使用 NumPy 基于一维索引数组从两个同形 3D 数组中条件选择元素

2026-02-14 10:46

NumPy 中基于一维索引数组从两个三维数组中条件选择元素的正确方法

2026-02-14 10:47

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

441

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

544

2023.08.23