如何正确解析嵌套结构不规范的 HTML 中的文本节点

碧海醫心

发布时间：2026-02-28 09:43:01

884人浏览过

来源于php中文网

原创

如何正确解析嵌套结构不规范的 HTML 中的文本节点

当使用 BeautifulSoup 的 find_all() 查找多个标签时，若 HTML 结构存在嵌套错误（如意外闭合了），不同解析器会生成截然不同的 DOM 树——lxml 严格纠错导致文本节点被剥离，而 html.parser 更宽容，可保留原始语义结构。

当使用 beautifulsoup 的 `find_all()` 查找多个标签时，若 html 结构存在嵌套错误（如 `

`），不同解析器会生成截然不同的 dom 树——`lxml` 严格纠错导致文本节点被剥离，而 `html.parser` 更宽容，可保留原始语义结构。

在实际网页抓取中，我们常遇到非标准 HTML：例如

before

AI Room Planner

AI 室内设计工具，免费为您的房间提供上百种设计方案

下载

的子元素）。此时解析器的行为差异尤为关键：

lxml 解析器：遵循 XML/HTML 严格规范，自动修复 DOM 结构——它会提前关闭

标签，使 after 成为
的直接子文本节点，脱离
上下文。因此 find_all(["p", "li"]) 仅返回

111
、
before

立即学习“前端免费学习笔记（深入）”；
和
222
html.parser 解析器：Python 内置、容错性强，更贴近浏览器的“尽力而为”解析逻辑。它将整个

before
- 222
after 视为一个完整
元素，其中 "after" 保留在

的 .contents 末尾，因而 find_all(["p", "li"]) 能正确返回包含 "after" 的完整

标签。

✅ 正确做法：显式指定容错解析器

from bs4 import BeautifulSoup

html = "<html><body><p>111</p><p>before<ul><li>222</li></ul>after</p></body></html>"
soup = BeautifulSoup(html, "html.parser")  # ✅ 推荐：使用 html.parser

elements = soup.find_all(["p", "li"])
print([str(e) for e in elements])
# 输出：
# ['<p>111</p>',
#  '<p>before<ul><li>222</li></ul>after</p>',
#  '<li>222</li>']

? 验证 "after" 是否被保留：

p2 = elements[1]  # 第二个 <p> 元素
print(repr(p2.get_text()))      # 'before222after'
print([type(c).__name__ for c in p2.contents])
# ['NavigableString', 'Tag', 'NavigableString'] → 最后一个即 "after"

⚠️ 注意事项：

不要依赖 prettify() 判断结构——它输出的是解析后的树形视图，而非原始源码；prettify() 中 "after" 出现在

若需提取 "after" 作为独立文本，可在获取

后遍历其 .contents，筛选 NavigableString 并排除空白：

from bs4 import NavigableString
p = soup.find("p", string=lambda x: "after" in str(x)) or soup.find_all("p")[1]
tail_text = [s.strip() for s in p.stripped_strings if "after" in s]
print(tail_text)  # ['after']

极端场景下可结合 soup.find_all(text=True) 获取所有文本节点，再用 .parent 关联上下文，但通常优先通过选择合适解析器解决根本问题。

总结：面对现实世界中大量不规范 HTML，html.parser 应作为默认解析器；仅在需要高性能或 XML 级别校验时选用 lxml，并主动处理其自动修复带来的结构偏移。

如何通过点击事件将电影元素 ID 安全传递至后端并查询详情

如何在 Flask 项目中正确引用并显示 HTML 中的本地图片

HTML 中 src 属性的正确写法详解

Flask-WTF 表单错误无法在 HTML 中正确渲染的解决方案

Flask-WTF 表单错误信息无法在 HTML 中正确渲染的解决方案

HTML速学教程(入门课程)

HTML怎么学习？HTML怎么入门？HTML在哪学？HTML怎么学才快？不用担心，这里为大家提供了HTML速学教程(入门课程)，有需要的小伙伴保存下载就能学习啦！

下载

相关标签:

html beautifulsoup xml dom ul li

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何正确配置 FullCalendar 的周视图（timeGridWeek）下一篇：暂无

作者最新文章

如何在 Go 中正确发送 HTTP POST 表单请求

2026-02-26 09:00

如何将 MySQL 查询结果正确输出为标准 JSON 格式

2026-02-26 09:13

百度农场登录入口在哪

2026-02-26 09:37

300大作战迪斯卓尔值得买吗迪斯卓尔角色详解

2026-02-26 09:40

Eloquent 的 createMany 是否保证插入顺序与输入数组一致？

2026-02-26 09:41

TCL登顶全球电视市场，松下调整战略聚焦高端与本土

2026-02-26 09:53

如何在 Go 中超时控制函数执行并精确测量耗时

2026-02-26 09:54

Log4j 中 stdout 与 fileout 的区别及配置最佳实践

2026-02-26 10:02

Phil Spencer 退休，Sarah Bond 离职，Matt Booty 晋升

2026-02-26 10:02

如何通过外部脚本动态启用或禁用 wrapt 装饰器

2026-02-26 10:16

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法：1. 使用在线转换器；2. 使用桌面软件（如 adobe acrobat、itext）；3. 使用命令行工具（如 pdftoxml）。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

1936

2024.04.01

xml怎么变成word

步骤：1. 导入 xml 文件；2. 选择 xml 结构；3. 映射 xml 元素到 word 元素；4. 生成 word 文档。提示：确保 xml 文件结构良好，并预览 word 文档以验证转换是否成功。想了解更多xml的相关内容，可以阅读本专题下面的文章。

2112

2024.08.01

xml是什么格式的文件

xml是一种纯文本格式的文件。xml指的是可扩展标记语言，标准通用标记语言的子集，是一种用于标记电子文件使其具有结构性的标记语言。想了解更多相关的内容，可阅读本专题下面的相关文章。

1141

2024.11.28

DOM是什么意思

dom的英文全称是documentobjectmodel，表示文件对象模型，是w3c组织推荐的处理可扩展置标语言的标准编程接口；dom是html文档的内存中对象表示，它提供了使用javascript与网页交互的方式。想了解更多的相关内容，可以阅读本专题下面的文章。

4032

2024.08.14

DOM是什么意思

4032

2024.08.14

li是什么元素

li是HTML标记语言中的一个元素，用于创建列表。li代表列表项，它是ul或ol的子元素，li标签的作用是定义列表中的每个项目。本专题为大家li元素相关的各种文章、以及下载和课程。

436

2023.08.03

Golang 并发编程模型与工程实践：从语言特性到系统性能

本专题系统讲解 Golang 并发编程模型，从语言级特性出发，深入理解 goroutine、channel 与调度机制。结合工程实践，分析并发设计模式、性能瓶颈与资源控制策略，帮助将并发能力有效转化为稳定、可扩展的系统性能优势。

2026.02.27

Golang 高级特性与最佳实践：提升代码艺术

本专题深入剖析 Golang 的高级特性与工程级最佳实践，涵盖并发模型、内存管理、接口设计与错误处理策略。通过真实场景与代码对比，引导从“可运行”走向“高质量”，帮助构建高性能、可扩展、易维护的优雅 Go 代码体系。

2026.02.27

热门下载

网站特效

网站源码

网站素材

前端模板