
本文介绍一种通用、递归式的 python 方法,用于从任意深度嵌套的 json 结构中提取所有匹配指定键(如 `"aaaa"` 或 `"bbbb"`)的值,并自动聚合为列表,适用于不规则嵌套场景。
在处理真实业务中的 JSON 数据(如 API 响应、配置文件或低代码平台导出结构)时,常遇到字段位置不固定、嵌套层级复杂、甚至同一键名出现在不同嵌套路径下的情况——正如示例中 "AAAA" 和 "BBBB" 并非位于顶层或统一路径,而是深藏于 customFields → values → [...] → values → [...] 的多层嵌套数组与对象混合结构中。此时,硬编码路径(如 data["customFields"][2]["values"][0][0]["values"][0]["AAAA"])不仅脆弱易错,且完全不可维护。
推荐采用递归深度优先遍历(DFS)策略:对任意输入数据(字典或列表),逐层展开,一旦发现目标键即收集其值,无需预知结构。该方法鲁棒性强、逻辑清晰,且天然支持任意嵌套深度和混合类型。
以下为完整可运行实现:
import json
def extract_values(data, key):
"""
递归提取 JSON 数据中所有 key 对应的值(支持 dict/list 混合嵌套)
:param data: 待解析的 JSON 兼容对象(dict/list/str/int/float/bool/None)
:param key: 要查找的字符串键名
:yield: 所有匹配到的值(按遍历顺序)
"""
if isinstance(data, dict):
# 若当前是字典,检查是否直接包含目标 key
if key in data:
yield data[key]
# 递归遍历所有 value(可能为 dict/list/原子类型)
for value in data.values():
yield from extract_values(value, key)
elif isinstance(data, list):
# 若当前是列表,对每个元素递归处理
for item in data:
yield from extract_values(item, key)
# 原子类型(str/int/float/bool/None)不包含键,直接跳过
# 示例用法(假设已加载原始 JSON 字符串为变量 `json_str`)
# data = json.loads(json_str)
# 提取所有 "AAAA" 和 "BBBB" 的值
List_AAAA = list(extract_values(data, "AAAA")) # → [9090, 9091]
List_BBBB = list(extract_values(data, "BBBB")) # → ["MONACO", "NICE"]✅ 关键原理说明:
- yield from 实现了生成器委托,使递归调用能扁平化返回所有深层结果;
- 类型判断(isinstance(data, dict/list))确保只对容器类型展开,避免对字符串、数字等误操作;
- 不依赖路径索引,因此完全兼容字段顺序变动、新增中间层或空数组等现实异常;
- 时间复杂度为 O(N),N 为 JSON 中所有节点总数,已是理论最优。
⚠️ 注意事项:
- 该方法返回所有匹配值,若需去重可后续调用 list(set(...))(注意:仅适用于可哈希值);
- 若 JSON 中存在同名键但语义不同(如 "id" 出现在多个上下文),此方法会一并提取——此时应结合上下文过滤(例如先定位到 name == "Case" 的对象再提取);
- 对超大 JSON(GB 级),建议改用流式解析器(如 ijson)避免内存溢出。
掌握这一递归提取模式,你将能从容应对绝大多数“结构不可控”的 JSON 解析任务——它不是黑魔法,而是对树形数据本质的尊重与利用。










