爬虫如何解析HTML_PHP用DOM解析提取HTML内容【操作】

絕刀狂花

发布时间：2026-02-11 11:03:19

540人浏览过

来源于php中文网

原创

DOMDocument加载HTML出错或返回空的主因是编码不匹配、未转义字符及HTML不规范；应预处理HTML、禁用自动补全、正确使用XPath并确保编码一致。

爬虫如何解析html_php用dom解析提取html内容【操作】

DOMDocument加载HTML时空白或报错`DOMDocument::loadHTML(): htmlParseEntityRef: no name`

这是最常见的情况：源HTML里有未转义的&、或自定义实体（比如©在不带DTD时可能被严格解析器拒掉）。DOMDocument默认按XML风格校验，但网页HTML普遍不规范。

实操建议：

AI图像编辑器

使用文本提示编辑、变换和增强照片

下载

立即学习“PHP免费学习笔记（深入）”；

加载前用mb_convert_encoding()确保输入是UTF-8，再用html_entity_decode()预处理，把&还原成&，避免解析中断
调用libxml_use_internal_errors(true)屏蔽警告，再用libxml_clear_errors()清理，否则后续getElementsByTagName可能返回空
用$dom->loadHTML($html, LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD)禁用自动补全结构，防止节点位置偏移

用`getElementsByTagName`取不到元素，但浏览器能看见

原因通常是DOM树没正确构建：比如HTML碎片缺根节点、

里直接写没包

，或者JS动态插入的内容根本不在原始HTML里。
实操建议：
立即学习“PHP免费学习笔记（深入）”；

先检查$dom->documentElement是否存在，再确认$dom->getElementsByTagName('div')->length是否为0——如果是，说明加载失败或内容为空
对表格类结构，别只查tr，改用$dom->getElementsByTagName('table')->item(0)->getElementsByTagName('tr')逐层定位
如果目标元素在或里，DOMDocument默认会跳过——得手动提取textContent后二次解析


DOMXPath查询返回空，//div[@class="item"]不生效
XPath在DOMDocument里默认不识别HTML class语义，且大小写敏感、空格敏感。比如class="item active"不能用@class="item"匹配。
实操建议：
立即学习“PHP免费学习笔记（深入）”；

用contains(@class, "item")代替@class="item"，更鲁棒
查询前确保$xpath = new DOMXPath($dom)已绑定正确DOM对象，否则query()返回false

如果HTML含命名空间（如xmlns="http://www.w3.org/1999/xhtml"），需注册前缀：$xpath->registerNamespace('h', 'http://www.w3.org/1999/xhtml')，再写//h:div


中文乱码或特殊字符变成问号
根源在于DOMDocument内部编码处理机制：它会把输入强制转成ISO-8859-1再解析，若原始HTML声明了charset=utf-8但没被识别，输出就崩。
实操建议：
立即学习“PHP免费学习笔记（深入）”；

加载前加到HTML字符串开头（哪怕只是临时拼接），比依赖HTTP头更可靠
获取文本内容时不用$node->nodeValue，改用$node->textContent，后者保留编码上下文
输出前统一用mb_convert_encoding($str, 'UTF-8', 'HTML-ENTITIES')兜底，尤其当innerHTML式提取时

DOM解析不是黑盒，每个loadHTML调用背后都有编码推断和树修复逻辑。漏掉LIBXML_HTML_NODEFDTD或忘了清错误，都可能让getElementsByTagName静默失败——这些细节不报错，但结果就是空。

低配服务器跑php源码卡顿怎么优化_精简模块与缓存策略介绍【汇总】

php获取本机ip与客户端ip混淆吗_php区分两者方法【解析】

PHP中圆括号包裹new Login的语法作用与必要性详解

如何扩展 PHP 目录扫描函数以支持多路径数组输入

数据库压力大如何缓解_PHP高并发数据库优化方法汇总【教程】

HTML速学教程(入门课程)

HTML怎么学习？HTML怎么入门？HTML在哪学？HTML怎么学才快？不用担心，这里为大家提供了HTML速学教程(入门课程)，有需要的小伙伴保存下载就能学习啦！

下载

相关标签:

php html 爬虫 xhtml 命名空间 xml 字符串 class Length copy JS 对象 dom innerHTML table tbody tr http

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：PHP版本漏洞修复需要多久_评估修复所需时间与影响周期【说明】下一篇：PHP怎么制作简单爬虫_PHP实现网页内容抓取方法【技巧】

作者最新文章

HTML5游戏引擎如何实现多人联机_网络通信基础搭建指南【教程】

2026-02-10 18:03

html5制作网页怎么发布_一键发布html5网页的在线工具选哪个【指南】

2026-02-10 18:05

鸣潮爱弥斯是谁-鸣潮爱弥斯角色介绍

2026-02-10 18:12

PSD转HTML5图片模糊咋解决_分辨率设置【技巧】

2026-02-10 18:18

怎么用play创建播放器_自定义音频控件方法【详解】

2026-02-10 18:23

手机网页play怎么用_移动端音频播放兼容性【指南】

2026-02-10 18:23

HTML5怎么让滚动文字自适应长度_用white-spacenowrap强制单行【说明】

2026-02-10 18:24

如何通过电话激活windows_离线电话激活的完整流程【技巧】

2026-02-10 18:29

支付宝集福的福气店是什么_2026年福气店兑换玩法全介绍【详解】

2026-02-10 18:29

HTML5图像位置怎么确定与文字间距咋控_图文间距自然排版技巧【技巧】

2026-02-10 18:32

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法：1. 使用在线转换器；2. 使用桌面软件（如 adobe acrobat、itext）；3. 使用命令行工具（如 pdftoxml）。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

1924

2024.04.01

xml怎么变成word

步骤：1. 导入 xml 文件；2. 选择 xml 结构；3. 映射 xml 元素到 word 元素；4. 生成 word 文档。提示：确保 xml 文件结构良好，并预览 word 文档以验证转换是否成功。想了解更多xml的相关内容，可以阅读本专题下面的文章。

2100

2024.08.01

xml是什么格式的文件

xml是一种纯文本格式的文件。xml指的是可扩展标记语言，标准通用标记语言的子集，是一种用于标记电子文件使其具有结构性的标记语言。想了解更多相关的内容，可阅读本专题下面的相关文章。

1117

2024.11.28

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

488

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

214

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1547

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

637

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

841

2024.03.22