使用 Python 查找 YAML 文件中特定键值对的重复项

碧海醫心

发布时间：2025-12-05 11:48:07

278人浏览过

来源于php中文网

原创

使用 Python 查找 YAML 文件中特定键值对的重复项

本文将指导您如何使用 python 和 pyyaml 库，高效地识别 yaml 文件中具有相同 ip 地址和相同类型的重复条目。通过构建一个 ip-类型映射，您可以遍历数据并准确地检测并报告符合特定条件的重复项，从而优化您的数据校验流程。

在处理配置或数据清单时，YAML 文件因其简洁性和可读性而广受欢迎。然而，随着文件规模的增长，识别其中是否存在特定条件的重复数据变得至关重要，例如查找具有相同 IP 地址且类型也相同的重复条目。本教程将详细介绍如何使用 Python 编写脚本来自动化这一过程。

准备工作

在开始之前，您需要确保系统中安装了 pyyaml 库，它是 Python 处理 YAML 文件的标准库。如果尚未安装，可以通过 pip 命令进行安装：

pip install pyyaml

理解目标与数据结构

我们的目标是从一个 YAML 文件中识别出满足以下条件的重复条目：

条目中包含 ip 键和 type 键。
存在多个条目具有相同的 ip 值。
这些具有相同 ip 值的条目，其 type 值也必须相同。

考虑以下 YAML 数据示例：

立即学习“Python免费学习笔记（深入）”；

-
    ip: 1.1.1.1
    status: Active
    type: 'typeA'
-
    ip: 1.1.1.1
    status: Disabled
    type: 'typeA'
-
    ip: 2.2.2.2
    status: Active
    type: 'typeC'
-
    ip: 3.3.3.3
    status: Active
    type: 'typeB'
-
    ip: 3.3.3.3
    status: Active
    type: 'typeC'
-
    ip: 2.2.2.2
    status: Active
    type: 'typeC'

根据上述规则：

Otter.ai

一个自动的会议记录和笔记工具，会议内容生成和实时转录

下载

IP 1.1.1.1 有两个条目，它们的 type 都是 typeA，因此被视为重复。
IP 2.2.2.2 有两个条目，它们的 type 都是 typeC，因此被视为重复。
IP 3.3.3.3 有两个条目，但它们的 type 分别是 typeB 和 typeC，不满足 type 也相同的条件，因此不被视为重复。

期望的输出是：

IP 1.1.1.1, typeA duplicate
IP 2.2.2.2, typeC duplicate

核心逻辑与实现

要实现这一目标，我们可以采用一种基于哈希表（Python 中的字典）的策略。我们将遍历 YAML 文件中的每一个条目，并记录每个 ip 第一次出现的 type。当再次遇到相同的 ip 时，我们将检查其 type 是否与之前记录的 type 相同。

以下是实现此功能的 Python 脚本：

import yaml

def find_duplicated_ip_types(yaml_file_path):
    """
    查找 YAML 文件中具有相同 IP 和相同类型的重复条目。

    Args:
        yaml_file_path (str): YAML 文件的路径。

    Returns:
        list: 包含重复条目描述的列表，例如 ["IP 1.1.1.1, typeA duplicate"]。
    """
    try:
        with open(yaml_file_path, 'r', encoding='utf-8') as file:
            data = yaml.safe_load(file)
    except FileNotFoundError:
        print(f"错误：文件 '{yaml_file_path}' 未找到。")
        return []
    except yaml.YAMLError as e:
        print(f"错误：解析 YAML 文件时出错：{e}")
        return []

    # 用于存储首次遇到的 IP 及其对应的类型
    # 格式为 {ip: type}
    ip_type_map = {}

    # 用于存储已识别的重复项，避免重复报告
    reported_duplicates = set()

    duplicates_found = []

    if not isinstance(data, list):
        print("警告：YAML 文件根元素不是列表，可能无法按预期处理。")
        return []

    for entry in data:
        # 确保 entry 是一个字典且包含 'ip' 和 'type' 键
        if isinstance(entry, dict) and 'ip' in entry and 'type' in entry:
            ip = entry['ip']
            entry_type = entry['type']

            # 检查当前 IP-类型组合是否已在 map 中
            if ip in ip_type_map:
                # 如果 IP 存在，并且其记录的类型与当前条目类型相同，则为重复项
                if entry_type == ip_type_map[ip]:
                    duplicate_key = f"{ip}-{entry_type}"
                    if duplicate_key not in reported_duplicates:
                        duplicates_found.append(f"IP {ip}, {entry_type} duplicate")
                        reported_duplicates.add(duplicate_key)
                # 如果 IP 存在但类型不同，则更新 map 为当前类型 (这表示该 IP 有多个类型，不构成我们定义的重复)
                # 或者可以根据需求选择不更新，保持第一次遇到的类型
                # 在本场景中，如果 IP 存在但类型不同，它不是我们寻找的重复，所以不需要特别处理 map
            else:
                # 如果是第一次遇到这个 IP，则将其 IP 和类型添加到 map 中
                ip_type_map[ip] = entry_type
        else:
            # 打印警告信息，指出 YAML 数据中存在无效条目
            # 在生产环境中，可以考虑记录日志或抛出异常
            print(f"警告：YAML 数据中存在无效条目或缺少 'ip'/'type' 键：{entry}")

    return duplicates_found

# 示例用法
yaml_file = 'myyaml.yaml' # 替换为您的 YAML 文件路径
results = find_duplicated_ip_types(yaml_file)

if results:
    print("\n发现以下重复条目：")
    for res in results:
        print(res)
else:
    print("\n未发现符合条件的重复条目。")

代码解析

导入 yaml 库: import yaml 引入处理 YAML 文件所需的模块。
文件读取与加载:
- with open(yaml_file_path, 'r', encoding='utf-8') as file: 安全地打开 YAML 文件。
- data = yaml.safe_load(file) 使用 yaml.safe_load() 方法加载 YAML 数据。safe_load 比 load 更安全，因为它只解析标准 YAML 标签，避免了潜在的任意代码执行风险。
- 增加了 try-except 块来处理文件未找到 (FileNotFoundError) 和 YAML 解析错误 (yaml.YAMLError) 的情况，提高了脚本的健壮性。
初始化映射和结果列表:
- ip_type_map = {}: 这是一个字典，用于存储每个 ip 第一次出现时对应的 type。键是 ip 地址，值是其 type。
- reported_duplicates = set(): 这是一个集合，用于存储已经报告过的重复项的唯一标识（例如 "1.1.1.1-typeA"），目的是防止同一个重复组合被多次报告。
- duplicates_found = []: 这是一个列表，用于收集所有符合条件的重复项的描述字符串。
遍历数据:
- if not isinstance(data, list): 检查 YAML 文件的根元素是否为列表，因为我们的预期数据结构是一个列表。
- for entry in data: 脚本遍历 YAML 文件加载后的数据列表中的每一个字典（即每一个条目）。
条件判断与逻辑处理:
- if isinstance(entry, dict) and 'ip' in entry and 'type' in entry: 这一行确保当前处理的 entry 是一个有效的字典，并且包含我们感兴趣的 ip 和 type 键。如果缺少这些键，会打印警告信息。
- ip = entry['ip'] 和 entry_type = entry['type'] 提取当前条目的 IP 和类型。
- if ip in ip_type_map: 检查当前的 ip 是否已经在 ip_type_map 中出现过。
  - if entry_type == ip_type_map[ip]: 如果 ip 已经存在，并且当前条目的 type 与 ip_type_map 中记录的 type 相同，则说明找到了一个符合条件的重复项。
    - duplicate_key = f"{ip}-{entry_type}" 创建一个唯一的键来标识这个 IP-类型组合。
    - if duplicate_key not in reported_duplicates: 检查这个重复组合是否已经报告过。
    - duplicates_found.append(...) 将重复项的描述添加到结果列表。
    - reported_duplicates.add(duplicate_key) 将此重复组合添加到已报告集合中，防止重复报告。
- else: 如果 ip 是第一次出现，则将其 ip 和 type 添加到 ip_type_map 中。

注意事项与扩展

错误处理: 示例代码中包含了对文件不存在和 YAML 解析错误的捕获。在实际应用中，您可能需要更详细的错误日志记录机制。
数据完整性: 脚本会检查每个条目是否为字典以及是否包含 ip 和 type 键。对于不符合预期格式的条目，会输出警告。根据需求，您可以选择跳过这些条目，或者抛出异常。
性能优化: 对于非常大的 YAML 文件，如果数据量达到百万级别，可以考虑使用更高效的数据结构或分块处理策略，尽管对于大多数常规用途，当前字典查找的效率已经足够高。
输出格式定制: 当前脚本将重复项打印到控制台。您可以修改 duplicates_found.append() 部分，将结果保存到文件、数据库，或者以 JSON 等其他格式返回。
更复杂的重复定义: 如果重复的定义有所不同（例如，只关心 IP 重复，不关心类型，或者关心 IP 和状态的组合），只需调整 ip_type_map 的键和值，以及比较逻辑即可。
yaml.safe_load() 的重要性: 始终推荐使用 safe_load() 而非 load()，以避免加载恶意构造的 YAML 文件时可能带来的安全风险。