Python 处理 YAML：识别 IP 地址与类型组合重复的条目

聖光之護

发布时间：2025-12-14 17:46:51

769人浏览过

来源于php中文网

原创

Python 处理 YAML：识别 IP 地址与类型组合重复的条目

本文详细介绍了如何使用 python 识别 yaml 文件中特定键值组合的重复项。通过解析 yaml 数据，并利用字典跟踪已遇到的 ip 地址及其关联类型，可以高效地筛选出 ip 地址和类型均相同的重复条目，并提供了完整的示例代码和详细解释，帮助读者理解并实现这一功能。

在处理配置或数据清单时，YAML 文件因其简洁性和可读性而被广泛应用。然而，数据中可能存在重复条目，特别是在需要根据多个字段组合来定义唯一性时。本教程将指导您如何使用 Python 查找 YAML 文件中 IP 地址和类型字段都相同的重复条目。

准备工作

首先，确保您的环境中安装了 pyyaml 库，它是 Python 处理 YAML 文件的标准库。如果尚未安装，可以通过以下命令进行安装：

pip install pyyaml

问题描述

假设我们有一个 YAML 文件，其中包含一系列网络设备的配置信息，每个条目都有 ip、status 和 type 字段。我们的目标是识别那些 ip 地址和 type 都完全相同的重复条目。例如，如果 1.1.1.1 的 type 是 typeA，并且文件中存在另一个 1.1.1.1 且 type 也是 typeA 的条目，则认为这是一个重复项。而如果 3.3.3.3 有一个 typeB 的条目和一个 typeC 的条目，则不应被视为重复。

以下是示例 YAML 文件内容：

立即学习“Python免费学习笔记（深入）”；

PatentPal专利申请写作

AI软件来为专利申请自动生成内容

下载

-
    ip: 1.1.1.1
    status: Active
    type: 'typeA'
-
    ip: 1.1.1.1
    status: Disabled
    type: 'typeA'
-
    ip: 2.2.2.2
    status: Active
    type: 'typeC'
-
    ip: 3.3.3.3
    status: Active
    type: 'typeB'
-
    ip: 3.3.3.3
    status: Active
    type: 'typeC'
-
    ip: 2.2.2.2
    status: Active
    type: 'typeC'
-

期望的输出是：

IP 1.1.1.1, typeA duplicate
IP 2.2.2.2, typeC duplicate

解决方案实现

要解决这个问题，我们可以采用以下策略：

加载 YAML 文件：使用 pyyaml 库将 YAML 文件内容加载到 Python 数据结构中。
遍历数据：逐一检查 YAML 文件中的每个条目。
跟踪已遇到的组合：使用一个字典来存储已遇到的 ip 和 type 组合。字典的键可以是 ip，值可以是该 ip 首次出现的 type。
识别重复项：在遍历过程中，如果当前条目的 ip 已经在字典中，并且其 type 与字典中记录的 type 相同，则说明找到了一个重复项。

以下是实现此逻辑的 Python 代码：

import yaml

def find_duplicate_ip_type_combinations(yaml_file_path):
    """
    查找 YAML 文件中 IP 地址和类型都相同的重复条目。

    Args:
        yaml_file_path (str): YAML 文件的路径。

    Returns:
        list: 包含重复条目信息的列表，每个元素是一个字符串。
    """
    try:
        with open(yaml_file_path, 'r', encoding='utf-8') as file:
            data = yaml.safe_load(file)
    except FileNotFoundError:
        print(f"错误: 文件 '{yaml_file_path}' 未找到。")
        return []
    except yaml.YAMLError as e:
        print(f"错误: 解析 YAML 文件时发生问题: {e}")
        return []

    # 用于存储首次遇到的 IP 和其对应的类型
    # 键是 IP 地址，值是首次遇到的类型
    ip_type_map = {}
    # 用于存储已经报告过的重复组合，避免重复打印
    reported_duplicates = set()

    duplicate_results = []

    if not isinstance(data, list):
        print("警告: YAML 文件根元素不是列表，可能无法按预期处理。")
        return []

    for entry in data:
        # 检查条目是否有效且包含所需的键
        if isinstance(entry, dict) and 'ip' in entry and 'type' in entry:
            ip = entry['ip']
            entry_type = entry['type']

            # 如果 IP 已经在 map 中
            if ip in ip_type_map:
                # 检查类型是否也相同
                if entry_type == ip_type_map[ip]:
                    # 发现重复项
                    duplicate_key = (ip, entry_type)
                    if duplicate_key not in reported_duplicates:
                        message = f"IP {ip}, {entry_type} duplicate"
                        duplicate_results.append(message)
                        reported_duplicates.add(duplicate_key)
            else:
                # 首次遇到该 IP，记录其类型
                ip_type_map[ip] = entry_type
        else:
            # 打印无效条目警告，但继续处理其他条目
            print(f"警告: YAML 数据中存在无效或不完整的条目: {entry}")

    return duplicate_results

# 示例用法
if __name__ == "__main__":
    # 创建一个模拟的 YAML 文件用于测试
    yaml_content = """
-
    ip: 1.1.1.1
    status: Active
    type: 'typeA'
-
    ip: 1.1.1.1
    status: Disabled
    type: 'typeA'
-
    ip: 2.2.2.2
    status: Active
    type: 'typeC'
-
    ip: 3.3.3.3
    status: Active
    type: 'typeB'
-
    ip: 3.3.3.3
    status: Active
    type: 'typeC'
-
    ip: 2.2.2.2
    status: Active
    type: 'typeC'
-
"""
    with open('myyaml.yaml', 'w', encoding='utf-8') as f:
        f.write(yaml_content)

    duplicates = find_duplicate_ip_type_combinations('myyaml.yaml')
    for dup in duplicates:
        print(dup)

代码解析

导入 yaml 库：这是处理 YAML 文件所必需的。
find_duplicate_ip_type_combinations 函数：
- 文件加载：使用 with open(...) 安全地打开并读取 YAML 文件。yaml.safe_load(file) 用于解析 YAML 内容，它比 yaml.load() 更安全，因为它只解析标准 YAML 标签，避免了任意代码执行的风险。
- 错误处理：加入了 try-except 块来处理文件未找到 (FileNotFoundError) 和 YAML 解析错误 (yaml.YAMLError) 的情况，提高了程序的健壮性。
- ip_type_map 字典：这个字典是解决方案的核心。它存储了每个 IP 地址首次出现的 type。例如，当 ip: 1.1.1.1 和 type: 'typeA' 第一次被处理时，ip_type_map 会记录 {'1.1.1.1': 'typeA'}。
- reported_duplicates 集合：为了避免当一个 (IP, type) 组合多次重复时，每次遇到都打印一次，我们使用一个集合来记录已经报告过的重复组合。例如，如果 1.1.1.1, typeA 出现了三次，我们只希望打印一次 IP 1.1.1.1, typeA duplicate。
- 遍历条目：代码通过 for entry in data: 循环遍历 YAML 文件中的每个条目。
- 有效性检查：if isinstance(entry, dict) and 'ip' in entry and 'type' in entry: 确保当前条目是一个字典，并且包含 ip 和 type 这两个关键字段，防止因数据格式不正确而引发错误。
- 重复逻辑：
  - if ip in ip_type_map:：检查当前条目的 ip 是否已经存在于 ip_type_map 中。这表示我们之前已经遇到过这个 IP。
  - if entry_type == ip_type_map[ip]:：如果 IP 存在，进一步检查当前条目的 type 是否与 ip_type_map 中记录的该 IP 的 type 相同。如果两者都满足，则确认这是一个重复项。
  - if duplicate_key not in reported_duplicates:：在确认是重复项后，检查这个 (IP, type) 组合是否已经报告过，如果没有，则添加到 duplicate_results 列表并添加到 reported_duplicates 集合。
- 首次记录：else: ip_type_map[ip] = entry_type：如果当前 IP 是第一次遇到，则将其 IP 和对应的类型记录到 ip_type_map 中。
- 处理无效条目：else: print(f"警告: YAML 数据中存在无效或不完整的条目: {entry}") 捕获并提示那些不符合预期结构（不是字典或缺少 ip/type 键）的条目。
示例用法 (if __name__ == "__main__":)：
- 这部分代码用于在直接运行脚本时进行测试。它创建了一个名为 myyaml.yaml 的文件，并使用 find_duplicate_ip_type_combinations 函数来查找重复项并打印结果。

注意事项与扩展

性能优化：对于非常大的 YAML 文件，如果数据量特别巨大，可以考虑使用 collections.Counter 或更高级的数据流处理技术，但对于一般情况，当前方法效率足够。
重复定义：本教程中，“重复”是指 IP 和 Type 的组合在文件中出现多次。如果您需要查找所有出现次数大于 1 的条目（包括第一个），则需要调整逻辑，例如使用 collections.defaultdict(list) 来存储每个 (IP, type) 组合的所有条目。
错误处理：在生产环境中，对文件操作和 YAML 解析的错误处理应更加细致，例如记录日志而不是简单打印。
输出格式：当前输出是简单的字符串。您可以根据需要修改 duplicate_results 列表中的内容，例如存储为字典或自定义对象，以便后续进一步处理。
多键组合：如果需要根据更多键的组合来判断重复，只需调整 ip_type_map 的键结构，例如使用元组 (entry['key1'], entry['key2']) 作为字典的键。