Python：递归比较文件夹内容并找出特定类型文件的差异

聖光之護

发布时间：2025-12-01 14:08:32

773人浏览过

来源于php中文网

原创

python：递归比较文件夹内容并找出特定类型文件的差异

本文详细介绍了如何使用Python递归比较两个文件夹（包括父子文件夹关系）的内容，特别是识别出源文件夹中存在但目标文件夹中缺失的特定类型文件（例如HTML文件）。通过利用`os.walk()`进行目录树遍历和集合操作进行高效比较，本教程提供了一种健壮且可扩展的解决方案，适用于文件同步、版本控制或数据清理等场景。

1. 引言与问题背景

在文件管理和数据处理中，我们经常需要比较两个文件夹的内容，以找出它们之间的差异。一个常见的场景是，一个文件夹（源文件夹）包含大量文件，而其子文件夹（目标文件夹）可能只包含其中一部分文件，或者是一些经过处理（如翻译）后的对应文件。此时，我们需要识别出那些只存在于源文件夹中，但在目标文件夹中缺失的特定类型文件。

传统的os.listdir()方法只能列出当前目录下的文件和子目录，无法递归地遍历整个目录树。因此，当目标文件夹是源文件夹的子目录时，或者当文件分散在多个子目录中时，简单的os.listdir()结合集合操作将无法正确识别文件差异，因为它未能获取所有文件的完整路径信息。

例如，如果我们想比较 C:\Folder-Oana\extracted 和 C:\Folder-Oana\extracted\translated 这两个文件夹中的HTML文件，并找出只存在于 extracted 文件夹（及其子目录）中，但不存在于 translated 文件夹（及其子目录）中的HTML文件，就需要一种能够递归遍历并获取完整文件路径的方法。

立即学习“Python免费学习笔记（深入）”；

2. 核心概念：递归目录遍历与文件路径处理

解决上述问题的关键在于两个方面：

递归遍历目录树：获取指定文件夹及其所有子文件夹中的所有文件。
标准化文件路径：确保在比较文件时，所有文件路径都是完整且一致的，通常需要将路径转换为小写以进行大小写不敏感的比较。

Python的os模块提供了os.walk()函数，它是实现递归目录遍历的理想工具。os.walk()会生成一个三元组 (dirpath, dirnames, filenames)，其中 dirpath 是当前遍历的目录路径，dirnames 是 dirpath 下的子目录列表，filenames 是 dirpath 下的文件列表。

3. 解决方案：使用 os.walk() 和集合操作

以下是解决该问题的Python代码实现：

import os

# 定义需要比较的两个文件夹路径
# folder1 为源文件夹
folder1 = r"C:\Folder-Oana\extracted"
# folder2 为目标文件夹，可以是 folder1 的子文件夹
folder2 = r"C:\Folder-Oana\extracted\translated"

def get_html_files(directory):
    """
    递归获取指定目录及其所有子目录中的所有HTML文件的完整路径。
    文件路径会被转换为小写，以实现大小写不敏感的比较。

    Args:
        directory (str): 要遍历的目录路径。

    Returns:
        list: 包含所有HTML文件完整路径（小写）的列表。
    """
    html_files = []
    # os.walk() 遍历目录树，生成 (根目录, 子目录列表, 文件列表)
    for root, dirs, files in os.walk(directory):
        for file in files:
            # 检查文件是否为HTML文件
            if file.lower().endswith('.html'):
                # 构建文件的完整路径，并转换为小写
                full_path = os.path.join(root, file).lower()
                html_files.append(full_path)
    return html_files

# 获取 folder1 中所有HTML文件的完整路径列表
html_files_folder1 = get_html_files(folder1)
# 获取 folder2 中所有HTML文件的完整路径列表
html_files_folder2 = get_html_files(folder2)

# 使用集合操作找出在 folder1 中存在但不在 folder2 中的文件
# 将列表转换为集合可以高效地执行差集操作
missing_files = list(set(html_files_folder1) - set(html_files_folder2))

# 打印结果
if missing_files:
    print(f"以下HTML文件存在于 '{folder1}' 但不存在于 '{folder2}' 中:")
    for filename in missing_files:
        # 移除 folder1 的路径前缀，只显示相对于 folder1 的相对路径或文件名
        # 这里为了演示方便，直接打印完整路径，实际应用中可根据需求调整
        print(filename)
else:
    print(f"在 '{folder1}' 中没有发现任何HTML文件是 '{folder2}' 中缺失的。")

3.1 代码解析

get_html_files(directory) 函数：

DeepSider
浏览器AI侧边栏对话插件，集成多个AI大模型

下载
- 此函数是核心，它接收一个目录路径作为参数。
- os.walk(directory)：遍历 directory 下的所有子目录和文件。对于每一个目录，它会返回当前目录的路径 (root)、该目录下的子目录名称列表 (dirs) 和文件名称列表 (files)。
- file.lower().endswith('.html')：检查每个文件是否以 .html 结尾，并且进行了 .lower() 处理，确保文件扩展名匹配时不区分大小写（例如，.HTML 和 .html 都被识别）。
- os.path.join(root, file)：这是至关重要的一步。它将当前文件所在的目录路径 root 和文件名 file 拼接起来，形成文件的完整路径。这样做可以确保即使文件位于子目录中，其路径也是唯一的，从而避免了不同目录中同名文件混淆的问题。
- .lower()：将完整的路径也转换为小写，进一步确保在比较时路径的大小写一致性，避免因操作系统或文件系统的大小写敏感性差异导致比较失败。
文件列表获取：
- 分别调用 get_html_files() 函数来获取 folder1 和 folder2 中所有HTML文件的完整路径列表。
集合差集操作：
- set(html_files_folder1) - set(html_files_folder2)：这是找出差异最有效的方法。将两个列表转换为集合后，可以直接使用集合的差集操作 (-) 来得到只存在于第一个集合中但不存在于第二个集合中的元素。集合操作的时间复杂度通常优于列表的循环比较。
- list(...)：将结果集合转换回列表，以便后续遍历和打印。
结果输出：
- 根据 missing_files 列表是否为空，打印相应的提示信息和缺失文件的列表。

4. 示例与输出

假设 C:\Folder-Oana\extracted 包含：

C:\Folder-Oana\extracted\2.html
C:\Folder-Oana\extracted\3.html
C:\Folder-Oana\extracted\4.html
C:\Folder-Oana\extracted\5.html
C:\Folder-Oana\extracted\translated\11.html (此文件也存在于 extracted 的子目录中)

而 C:\Folder-Oana\extracted\translated 包含：

C:\Folder-Oana\extracted\translated\11.html
C:\Folder-Oana\extracted\translated\12.html

运行上述代码，预期输出将是：

以下HTML文件存在于 'C:\Folder-Oana\extracted' 但不存在于 'C:\Folder-Oana\extracted\translated' 中:
c:\folder-oana\extracted\2.html
c:\folder-oana\extracted\3.html
c:\folder-oana\extracted\4.html
c:\folder-oana\extracted\5.html

注意： 输出的路径会是小写，因为我们在 get_html_files 函数中进行了路径小写转换。

5. 注意事项与最佳实践

路径大小写敏感性：在不同的操作系统中，文件路径的大小写敏感性可能不同（例如，Windows通常不敏感，Linux通常敏感）。通过将所有路径转换为小写（lower()），可以确保比较的健壮性，避免因大小写差异导致的文件识别错误。
完整路径的重要性：始终使用 os.path.join() 构建文件的完整路径。只比较文件名会导致不同目录下的同名文件被错误地识别为相同。
性能优化：对于大量文件，使用 set 进行差集操作比逐个遍历列表进行比较效率更高。
错误处理：在实际应用中，应考虑添加错误处理机制，例如使用 try-except 块来处理文件夹不存在或权限不足等情况。
相对路径与绝对路径：本教程使用的是绝对路径进行比较。如果需要比较相对路径，可以对 missing_files 中的路径进行进一步处理，移除源文件夹的公共前缀。
通用性：get_html_files 函数可以很容易地修改为 get_files_by_extension(directory, extension)，使其能够查找任何指定扩展名的文件。

6. 总结

通过本教程，我们学习了如何利用Python的os.walk()函数递归遍历目录树，并结合集合操作高效地比较两个文件夹（包括父子文件夹关系）中的特定类型文件。这种方法不仅解决了简单os.listdir()的局限性，还通过路径标准化和集合运算提供了高效且准确的解决方案，适用于各种文件管理和数据分析场景。掌握这一技术，将大大提升您在Python中处理文件系统任务的能力。

Python Selenium怎么无头模式运行_配置--headless参数在后台静默抓取数据

Python怎么挂机防锁屏_代码模拟微小键盘按键移动防止公司电脑自动休眠锁屏

Python怎么获取磁盘剩余空间_shutil.disk_usage()查看容量

Python代码被卡住怎么调试_利用Py-Spy动态附加到正在运行的进程生成火焰图分析死锁位置

Python配置文件热加载_配置变更生效机制

相关专题

windows查看端口占用情况

Windows端口可以认为是计算机与外界通讯交流的出入口。逻辑意义上的端口一般是指TCP/IP协议中的端口，端口号的范围从0到65535，比如用于浏览网页服务的80端口，用于FTP服务的21端口等等。怎么查看windows端口占用情况呢？php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

1518

2023.07.26

查看端口占用情况windows

端口占用是指与端口关联的软件占用端口而使得其他应用程序无法使用这些端口，端口占用问题是计算机系统编程领域的一个常见问题，端口占用的根本原因可能是操作系统的一些错误，服务器也可能会出现端口占用问题。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

1172

2023.07.27

windows照片无法显示

当我们尝试打开一张图片时，可能会出现一个错误提示，提示说"Windows照片查看器无法显示此图片，因为计算机上的可用内存不足"，本专题为大家提供windows照片无法显示相关的文章，帮助大家解决该问题。

837

2023.08.01

windows查看端口被占用的情况

windows查看端口被占用的情况的方法：1、使用Windows自带的资源监视器；2、使用命令提示符查看端口信息；3、使用任务管理器查看占用端口的进程。本专题为大家提供windows查看端口被占用的情况的相关的文章、下载、课程内容，供大家免费下载体验。

463

2023.08.02

windows无法访问共享电脑

在现代社会中，共享电脑是办公室和家庭的重要组成部分。然而，有时我们可能会遇到Windows无法访问共享电脑的问题。这个问题可能会导致数据无法共享，影响工作和生活的正常进行。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

2362

2023.08.08

windows自动更新

Windows操作系统的自动更新功能可以确保系统及时获取最新的补丁和安全更新，以提高系统的稳定性和安全性。然而，有时候我们可能希望暂时或永久地关闭Windows的自动更新功能。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

874

2023.08.10

windows boot manager

windows boot manager无法开机的解决方法：1、系统文件损坏，使用Windows安装光盘或USB启动盘进入恢复环境，选择修复计算机，然后选择自动修复；2、引导顺序错误，进入恢复环境，选择命令提示符，输入命令"bootrec /fixboot"和"bootrec /fixmbr"，然后重新启动计算机；3、硬件问题，使用硬盘检测工具进行扫描和修复；4、重装操作系统。本专题还提供其他解决

1996

2023.08.28