如何从HTML网页抓取数据并映射成XML

畫卷琴夢

发布时间：2026-01-17 10:00:10

788人浏览过

来源于php中文网

原创

用beautifulsoup解析html后，用xml.etree.elementtree构建xml树最轻量可控；需手动定义字段映射、严格处理空值与转义，优先使用.select()和.get_text()。

如何从html网页抓取数据并映射成xml

用 Python 的 BeautifulSoup 解析 HTML 并生成 XML 结构

直接用 BeautifulSoup 解析 HTML，再用标准库 xml.etree.ElementTree 构建 XML 树是最轻量、可控性最强的方式。不推荐用正则硬匹配 HTML，也不建议用 lxml.html 直接转 XML（它会补全 DOM、引入命名空间，常导致结构失真）。

关键点：HTML 是松散语法，XML 要求严格嵌套和闭合；必须手动定义字段映射规则，不能依赖“自动转换”。

BeautifulSoup(html_content, "html.parser") 足够应付绝大多数网页，不用上 lxml 解析器（除非需 XPath 或处理严重破损 HTML）
提取数据时优先用 .select()（CSS 选择器），比 .find_all() 更直观、更接近前端调试习惯
每个 XML 元素内容必须调用 str().strip()，否则可能混入换行、空格或 None

字段映射需显式声明，不能靠标签名自动推导

HTML 中的 <div class="price"> 和 <code><span itemprop="price"></span> 都可能表示价格，但没有任何通用规则能自动识别。你必须写明："price" 字段对应哪个 CSS 选择器、是否取文本、是否取属性值、是否需要清洗。

常见错误：把 item["title"] = soup.select_one("h1").text 写成 item["title"] = soup.select_one("h1").get_text() —— 表面一样，但 .text 在节点为空时返回 None，而 .get_text() 返回空字符串，后者更适合 XML 内容赋值。

立即学习“前端免费学习笔记（深入）”；

Quinvio AI

AI辅助下快速创建视频，虚拟代言人

下载

用字典预先定义映射关系，例如：

{'title': {'selector': 'h1', 'attr': None, 'method': 'text'}, 'price': {'selector': '.price', 'attr': 'data-value', 'method': 'get'}}

对多值字段（如商品图集），用 [el.get('src') for el in soup.select('.gallery img')] 显式提取列表，再逐个创建 XML 子节点
避免用 innerHTML 类逻辑拼接字符串生成 XML，易引入未转义字符（如 &、），导致 XML 解析失败

生成 XML 时必须处理字符转义和编码

XML 不允许直接出现 &、、<code>>、"、'，而 HTML 文本中极常见。Python 的 ElementTree 默认会转义，但前提是内容以字符串形式传入——若误把 Tag 对象（如 soup.p）直接塞进 Element.text，会触发 TypeError 或输出意外字符串。

所有文本内容必须经 str(val or "").strip() 处理，再传给 Element.text
若需保留 HTML 片段（如富文本描述），不能直接插入 XML，应先用 html.escape() 转义，或改用 CDATA 包裹（需手动拼接字符串，ElementTree 不原生支持）
写入文件时明确指定 encoding='utf-8'，并加 XML 声明：
```
<?xml version="1.0" encoding="UTF-8"?>
```

遇到动态渲染页面时，静态解析必然失败

如果目标网页依赖 JavaScript 渲染核心数据（比如 React/Vue 应用、分页加载的商品列表），requests + BeautifulSoup 拿到的只是骨架 HTML，关键字段为空。这时候不是映射逻辑错了，而是根本没抓到数据源。

解决方案只有两个：一是找官网提供的 API（检查浏览器 Network 面板中的 XHR/Fetch 请求），直接请求 JSON；二是用 Playwright 或 Selenium 启动真实浏览器，等待 JS 执行完毕再提取 —— 但注意，这已不属于“HTML 抓取+XML 映射”的范畴，而是自动化交互。

判断是否为动态页面：禁用浏览器 JS 后刷新，看关键信息是否消失
不要在 Playwright 中再用 BeautifulSoup 解析 page.content()，直接用 page.inner_text() 或 page.eval_on_selector() 提取更稳
即使用了浏览器自动化，XML 映射规则仍要手写，没有银弹

实际最难的从来不是怎么生成 XML，而是如何稳定、准确地从千奇百怪的 HTML 结构里定位出你要的那几块数据——每个网站都是独立协议，得一个一个对。

XML文件可以使用CSS样式吗给XML添加CSS样式的教程

SVG怎么响应鼠标事件 onclick in SVG XML

SVG的标签怎么实现动画

JQuery的.find()方法怎么在XML数据上使用

SVG是什么如何用XML来绘制可缩放矢量图形

HTML速学教程(入门课程)

HTML怎么学习？HTML怎么入门？HTML在哪学？HTML怎么学才快？不用担心，这里为大家提供了HTML速学教程(入门课程)，有需要的小伙伴保存下载就能学习啦！

下载

相关标签:

css python html 前端标准库 beautifulsoup for 命名空间 select xml 字符串 class dom innerHTML 选择器

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何为XML映射编写单元测试？下一篇：XSLT怎么处理空白字符 xsl:strip-space

作者最新文章

升级Win11后自带画图工具不见了？修复与重新安装画图3D的方案

2026-03-08 11:05

电脑输入法不见了怎么办电脑任务栏输入法图标找回的方法

2026-03-08 11:07

C# XmlWriter WriteElementString 写入包含文本的元素

2026-03-08 11:27

C#安全文件句柄 C#如何使用SafeFileHandle避免句柄泄漏

2026-03-08 11:40

C#将数据库表导出到文件 C#如何把查询结果保存为CSV或Excel

2026-03-08 12:08

C# Monitor类使用方法 C# Monitor.Wait和Pulse如何实现线程通信

2026-03-08 12:12

三角洲行动怎么压枪三角洲行动灵敏度设置推荐【教学】

2026-03-08 12:35

C# 文件操作的A/B测试 C#如何测试不同文件存储方案(如本地 vs S3)的性能影响

2026-03-08 12:42

17yoo平台登录入口绿色安全无毒小游戏网

2026-03-08 13:56

哪个Java版本性能最好不同JDK版本性能对比测试【数据】

2026-03-08 14:46

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法：1. 使用在线转换器；2. 使用桌面软件（如 adobe acrobat、itext）；3. 使用命令行工具（如 pdftoxml）。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

1945

2024.04.01

xml怎么变成word

步骤：1. 导入 xml 文件；2. 选择 xml 结构；3. 映射 xml 元素到 word 元素；4. 生成 word 文档。提示：确保 xml 文件结构良好，并预览 word 文档以验证转换是否成功。想了解更多xml的相关内容，可以阅读本专题下面的文章。

2119

2024.08.01

xml是什么格式的文件

xml是一种纯文本格式的文件。xml指的是可扩展标记语言，标准通用标记语言的子集，是一种用于标记电子文件使其具有结构性的标记语言。想了解更多相关的内容，可阅读本专题下面的相关文章。

1167

2024.11.28

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

760

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

220

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1565

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

649

2023.11.24

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

热门下载

网站特效

网站源码

网站素材

前端模板