如何用Python脚本比较两个sitemap.xml的差异

煙雲

发布时间：2025-12-22 08:23:02

178人浏览过

来源于php中文网

原创

用Python比较两个sitemap.xml差异需解析XML提取URL、标准化（小写/去尾斜杠/统协议）、递归处理嵌套sitemapindex，再集合比对新增/缺失URL并格式化输出。

如何用python脚本比较两个sitemap.xml的差异

用Python比较两个sitemap.xml的差异，核心是解析XML、提取URL列表，再做集合或有序比对。关键在于处理sitemap可能存在的嵌套（如sitemapindex）、重复URL、规范格式（如末尾斜杠、协议统一），以及输出可读性强的结果。

解析并标准化URL列表

sitemap.xml本质是XML，推荐用xml.etree.ElementTree（标准库，无需安装）解析。注意：
• 多数sitemap用 <loc> 标签包裹URL；
• 若是sitemapindex（含多个子sitemap），需递归抓取所有<loc>并过滤出以.xml结尾的子链接；
• URL标准化建议：转小写、移除末尾/、统一用https://（若业务要求）。

示例代码片段：

import xml.etree.ElementTree as ET
from urllib.parse import urlparse, urlunparse
<p>def normalize_url(url):
parsed = urlparse(url)</p><h1>转小写，去掉末尾/，保留path/query/fragment</h1><pre class='brush:php;toolbar:false;'>path = parsed.path.rstrip('/')
return urlunparse((parsed.scheme, parsed.netloc.lower(), path,
                   parsed.params, parsed.query, parsed.fragment))

def extract_urls_from_sitemap(file_path): urls = set() try: tree = ET.parse(file_path) root = tree.getroot() namespaces = {'ns': 'https://www.php.cn/link/654f3a10edb3bb1755a43cc4f9be9dc6'}

先尝试找普通url条目

    for loc in root.findall('.//ns:loc', namespaces):
        if loc.text:
            urls.add(normalize_url(loc.text.strip()))
    # 若是sitemapindex，递归处理子sitemap（这里简化为只读本地文件，实际需HTTP请求）
except Exception as e:
    print(f"解析失败 {file_path}: {e}")
return urls</pre></font></p>

执行三类基础比对

拿到两个标准化URL集合后，常用比对方式有：

立即学习“Python免费学习笔记（深入）”；

仅在A中存在（新增）：用 urls_a - urls_b
仅在B中存在（删除或失效）：用 urls_b - urls_a
双方共有但内容不同（如参数变化）：需逐条对比原始字符串或哈希值（如hashlib.md5(url.encode()).hexdigest()），但通常标准化后集合差已足够

支持远程sitemap和层级解析

真实场景中，sitemap常托管在https://example.com/sitemap.xml，且可能包含嵌套引用。此时需：

Fotor

Fotor 在线照片编辑器

下载

用requests下载XML（加timeout和headers防被拒）
识别<sitemapindex>结构，对每个子<loc>递归下载并解析（注意相对路径需拼接base URL）
用lxml（可选）替代ElementTree，支持XPath更灵活，但需额外安装

输出差异结果到文件或控制台

建议按类别分块输出，带行号和简单统计：

# 示例输出结构
=== 新增URL（sitemap_A 比 sitemap_B 多出） ===
1. https://example.com/blog/new-post
2. https://example.com/products/item-77
<p>=== 缺失URL（sitemap_A 中已无，但 sitemap_B 仍有） ===</p><ol><li><a href="https://www.php.cn/link/65951d951d3b5df75fc887290a473774">https://www.php.cn/link/65951d951d3b5df75fc887290a473774</a></li><li><a href="https://www.php.cn/link/df0d020fc9a3e0bafef47e229b498ba5">https://www.php.cn/link/df0d020fc9a3e0bafef47e229b498ba5</a></li></ol><p>总计：新增 2 条，缺失 2 条，共同 142 条

也可导出为CSV或JSON，方便后续导入Excel或CI流程校验。

XML文件转Excel宏代码 VBA脚本导入XML到工作表

XML文件转Excel 2010格式使用VBA将XML映射到表格

VBA解析XML文件方法 Excel宏如何抓取Web XML数据

Excel怎么转换成XML Excel导出为XML格式教程

Excel开发工具箱导入XML 开启Excel开发者模式处理XML

相关标签:

excel python js json csv 格式化输出 python脚本 .net 标准库 json try xml 字符串递归 http https excel

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：什么是XPath 3.1的新功能下一篇：Java XMLStreamWriter怎么用 StAX写入XML

作者最新文章

XML Schema xs:key与keyref XSD中定义主键和外键约束

2026-03-13 11:47

增值税发票真伪查询系统官网入口全国发票查验平台唯一入口

2026-03-13 11:55

Dapper中怎么显式指定参数类型 Dapper DbType设置方法

2026-03-13 12:15

Julia语言如何实现HTTP文件上传 HTTP.jl库

2026-03-13 12:32

Postman怎么发送XML格式的请求 Postman教程

2026-03-13 12:32

PS如何使用蒙版修改图片？Photoshop蒙版工具全方位深度解析

2026-03-13 12:53

Android arrays.xml字符串数组资源文件中定义列表数据

2026-03-13 13:03

钉钉脑图支持什么格式导入钉钉思维导图格式要求【百科】

2026-03-13 13:12

C# TPL Dataflow使用方法 C#如何构建数据流处理管道

2026-03-13 13:26

XML文件转YAML Java SnakeYAML库转换XML配置

2026-03-13 13:44

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

457

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

549

2023.08.23