Python爬虫如何解析网页中的XML站点地图(sitemap)_Python爬虫解析XML站点地图指南

煙雲

发布时间：2025-11-03 13:36:02

984人浏览过

来源于php中文网

原创

首先解析XML站点地图获取URL列表，需用requests获取内容并用ElementTree解析；由于存在命名空间，必须指定前缀如{"ns": "http://www.sitemaps.org/schemas/sitemap/0.9"}才能正确提取loc、lastmod等信息；若根节点为<sitemapindex>，则为索引文件，需递归解析每个子链接；注意事项包括检查响应状态、添加User-Agent、遵守robots.txt及控制请求频率。

python爬虫如何解析网页中的xml站点地图(sitemap)_python爬虫解析xml站点地图指南

解析网页中的XML站点地图（sitemap）是Python爬虫中常见的任务，尤其在需要批量抓取网站页面时。通过读取sitemap，可以快速获取网站公开的所有重要URL列表，提高爬取效率和准确性。

获取并读取XML站点地图

大多数网站会在根目录下提供 sitemap.xml 文件，例如 https://www.php.cn/link/5211bda24f5c44114c473a74b8bdf361。你可以使用 requests 库发起HTTP请求获取内容，再用 xml.etree.ElementTree 解析XML结构。

示例代码：

import requests
import xml.etree.ElementTree as ET
<p>url = "<a href="https://www.php.cn/link/5211bda24f5c44114c473a74b8bdf361">https://www.php.cn/link/5211bda24f5c44114c473a74b8bdf361</a>"
response = requests.get(url)
response.raise_for_status()  # 检查请求是否成功</p><h1>解析XML内容</h1><p>root = ET.fromstring(response.content)</p><p><span>立即学习</span>“<a href="https://pan.quark.cn/s/00968c3c2c15" style="text-decoration: underline !important; color: blue; font-weight: bolder;" rel="nofollow" target="_blank">Python免费学习笔记（深入）</a>”；</p>

理解Sitemap的XML结构

标准的sitemap遵循特定的XML命名空间格式。常见结构包含 <urlset> 根节点，其下每个 <url> 子节点代表一个页面，通常包括以下字段：

loc：页面的URL地址
lastmod：最后修改时间（可选）
changefreq：更新频率（如daily、weekly）
priority：优先级（0.0 到 1.0）

由于XML中使用了命名空间（namespace），直接查找标签会失败。必须在解析时指定命名空间前缀。

正确处理命名空间的方法：

In3D

把真人变成化身，创建逼真且可自定义的虚拟角色

下载

namespace = {"ns": "http://www.sitemaps.org/schemas/sitemap/0.9"}
<p>for url_elem in root.findall("ns:url", namespace):
loc = url_elem.find("ns:loc", namespace).text
lastmod = url_elem.find("ns:lastmod", namespace)
print("URL:", loc)
if lastmod is not None:
print("Last Modified:", lastmod.text)</p>

处理分层站点地图（Sitemap Index）

大型网站常使用站点地图索引（sitemap index），即主文件列出多个子sitemap链接。这种情况下，需先解析主文件中的 <sitemap> 节点，再逐个抓取子文件。

判断当前XML是索引还是普通站点地图：

若根节点为 <sitemapindex>，则是索引文件
若根节点为 <urlset>，则是URL列表文件

示例：递归解析所有子站点地图

def parse_sitemap_index(content):
    root = ET.fromstring(content)
    namespace = {"ns": "http://www.sitemaps.org/schemas/sitemap/0.9"}
    sitemaps = []
<pre class='brush:php;toolbar:false;'>for sitemap in root.findall("ns:sitemap", namespace):
    loc = sitemap.find("ns:loc", namespace).text
    sitemaps.append(loc)
return sitemaps

之后对每个返回的子链接再次调用解析函数提取实际URL。

注意事项与最佳实践

使用Python解析XML站点地图时应注意以下几点：

始终检查HTTP响应状态，避免因404或403导致程序中断
添加User-Agent头模拟浏览器请求，防止被反爬机制拦截
遵守robots.txt规则，尊重网站的爬取策略
控制请求频率，避免对目标服务器造成压力
考虑使用 lxml 库替代内置ET，支持更复杂的XPath查询和更好的性能

基本上就这些。掌握这些方法后，你就能高效地从各类XML站点地图中提取所需链接，为后续的网页抓取打下基础。

XML文件如何去除重复节点 Python脚本去重XML数据

XML文件如何转换为CSV格式 Python pandas一行代码转换

XML文件头version 1.1 XML 1.0与1.1版本的区别

Python xml.etree.ElementTree register_namespace 注册命名空间前缀

Python xml.sax.parse 解析XML文件

相关标签:

python 浏览器 ai 爬虫命名空间 xml 递归 Namespace http https

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：C++如何使用libxml2库来解析RSS文档_使用C++和libxml2库解析RSS文档下一篇：Python怎么修改XML文件中的节点内容_Python修改XML节点内容方法

作者最新文章

XML Schema xs:key与keyref XSD中定义主键和外键约束

2026-03-13 11:47

增值税发票真伪查询系统官网入口全国发票查验平台唯一入口

2026-03-13 11:55

Dapper中怎么显式指定参数类型 Dapper DbType设置方法

2026-03-13 12:15

Julia语言如何实现HTTP文件上传 HTTP.jl库

2026-03-13 12:32

Postman怎么发送XML格式的请求 Postman教程

2026-03-13 12:32

PS如何使用蒙版修改图片？Photoshop蒙版工具全方位深度解析

2026-03-13 12:53

Android arrays.xml字符串数组资源文件中定义列表数据

2026-03-13 13:03

钉钉脑图支持什么格式导入钉钉思维导图格式要求【百科】

2026-03-13 13:12

C# TPL Dataflow使用方法 C#如何构建数据流处理管道

2026-03-13 13:26

XML文件转YAML Java SnakeYAML库转换XML配置

2026-03-13 13:44

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法：1. 使用在线转换器；2. 使用桌面软件（如 adobe acrobat、itext）；3. 使用命令行工具（如 pdftoxml）。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

1949

2024.04.01

xml怎么变成word

步骤：1. 导入 xml 文件；2. 选择 xml 结构；3. 映射 xml 元素到 word 元素；4. 生成 word 文档。提示：确保 xml 文件结构良好，并预览 word 文档以验证转换是否成功。想了解更多xml的相关内容，可以阅读本专题下面的文章。

2119

2024.08.01

xml是什么格式的文件

xml是一种纯文本格式的文件。xml指的是可扩展标记语言，标准通用标记语言的子集，是一种用于标记电子文件使其具有结构性的标记语言。想了解更多相关的内容，可阅读本专题下面的相关文章。

1172

2024.11.28

http500解决方法

http500解决方法有检查服务器日志、检查代码错误、检查服务器配置、检查文件和目录权限、检查资源不足、更新软件版本、重启服务器或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

498

2023.11.09

http请求415错误怎么解决

解决方法：1、检查请求头中的Content-Type；2、检查请求体中的数据格式；3、使用适当的编码格式；4、使用适当的请求方法；5、检查服务器端的支持情况。更多http请求415错误怎么解决的相关内容，可以阅读下面的文章。

454

2023.11.14

HTTP 503错误解决方法

HTTP 503错误表示服务器暂时无法处理请求。想了解更多http错误代码的相关内容，可以阅读本专题下面的文章。

3646

2024.03.12

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2928

2024.08.16

http与https有哪些区别

2928

2024.08.16

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

热门下载

网站特效

网站源码

网站素材

前端模板