0

0

利用PHP DOM解析器高效提取指定HTML标题及其紧邻段落

霞舞

霞舞

发布时间:2025-12-03 12:22:02

|

1002人浏览过

|

来源于php中文网

原创

利用PHP DOM解析器高效提取指定HTML标题及其紧邻段落

本教程详细介绍了如何使用php的domdocument和domxpath库,从复杂的html字符串中准确提取特定级别的标题(如h3)及其紧邻的第一个段落。文章强调了避免使用正则表达式解析html的重要性,并提供了一个健壮的dom解析方案,通过xpath查询和元素遍历,实现精确的数据提取,确保代码的稳定性和可维护性。

引言:为何不推荐使用正则表达式解析HTML

在处理HTML内容时,许多开发者会倾向于使用正则表达式来提取所需数据。然而,HTML并非一种规则语言,其结构复杂且存在许多变体(如可选标签、不规范嵌套、属性顺序不一等),这使得编写一个能够稳定、准确解析所有HTML情况的正则表达式变得极其困难,甚至不可能。一旦HTML结构稍有变化,正则表达式就可能失效,导致维护成本高昂且容易出错。

业界普遍共识是,对于HTML解析,应使用专门的HTML解析器。PHP提供了DOMDocument和DOMXPath这两个强大的内置类,它们能够将HTML解析为DOM(文档对象模型)树,允许我们以结构化的方式遍历和查询元素,从而实现更精确、更健壮的数据提取。

使用PHP DOMDocument和DOMXPath提取H3标题及其首段

本节将详细介绍如何利用DOMDocument和DOMXPath来解决从HTML字符串中提取所有

标题及其紧邻的第一个

段落的需求。

1. 准备HTML数据

首先,我们需要一个包含目标标题和段落的HTML字符串作为输入。

立即学习PHP免费学习笔记(深入)”;

This is my title

This is a text right under my h1 title.

This is some more text under my h1 title

This is my level 2 heading

This is text right under my level 2 heading

First h3

First paragraph for the first h3

Second h3

First paragraph for the second h3

Third h3

First paragraph for the third h3

Second paragraph for the third h3

This is my level 2 heading

This is text right under my level 2 heading

TAG; ?>

2. 加载HTML到DOMDocument

DOMDocument类用于将HTML或XML文档加载到内存中,并将其解析为DOM树。

// 创建一个新的DOMDocument实例
$dom = new DomDocument();

// 加载HTML字符串
// LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD 选项用于处理HTML片段,
// 避免DOMDocument自动添加不必要的、、标签,
// 这对于解析非完整HTML文档非常有用。
$dom->loadHTML($html, LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD);

3. 创建DOMXPath对象进行查询

DOMXPath类允许我们使用XPath查询语言来选择DOM树中的节点。XPath是一种强大的查询语言,专门用于在XML或HTML文档中查找信息。

// 创建DOMXPath实例,关联到DOMDocument
$xpath = new DOMXPath($dom);

4. 查询所有H3标题并遍历

使用XPath查询表达式//h3可以选中文档中所有

标签。DOMXPath::query()方法会返回一个DOMNodeList对象,其中包含了所有匹配的DOMElement节点。
// 查询所有

标签 $results = $xpath->query("//h3"); // 存储提取到的标题和段落 $extractedData = []; // 遍历所有找到的

元素 foreach ($results as $h3Element) { // 获取

标签的文本内容 $h3Text = $h3Element->textContent; // 初始化段落文本为空 $paragraphText = ''; // 获取当前

元素的下一个兄弟元素 // nextElementSibling 属性返回紧邻当前元素的下一个兄弟元素节点, // 如果没有,则返回 null。 $nextElement = $h3Element->nextElementSibling; // 检查下一个元素是否存在且其标签名是否为'p' if ($nextElement && 'p' === $nextElement->nodeName) { // 如果是

标签,则获取其文本内容 $paragraphText = $nextElement->textContent; } // 将提取到的数据添加到结果数组 $extractedData[] = [ 'heading' => $h3Text, 'paragraph' => $paragraphText ]; }

5. 输出结果

最后,我们可以遍历extractedData数组,以所需的格式输出提取到的标题和段落。

Mistral AI
Mistral AI

Mistral AI被称为“欧洲版的OpenAI”,也是目前欧洲最强的 LLM 大模型平台

下载
// 按照期望格式输出结果
foreach ($extractedData as $item) {
    echo "

" . $item['heading'] . "

"; echo "

" . $item['paragraph'] . "

"; }

完整示例代码

This is my title

This is a text right under my h1 title.

This is some more text under my h1 title

This is my level 2 heading

This is text right under my level 2 heading

First h3

First paragraph for the first h3

Second h3

First paragraph for the second h3

Third h3

First paragraph for the third h3

Second paragraph for the third h3

This is my level 2 heading

This is text right under my level 2 heading

TAG; // 创建一个新的DOMDocument实例 $dom = new DomDocument(); // 加载HTML字符串 // LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD 选项用于处理HTML片段, // 避免DOMDocument自动添加不必要的、、标签, // 这对于解析非完整HTML文档非常有用。 // @ 符号用于抑制loadHTML可能产生的警告,因为HTML不总是规范的 @$dom->loadHTML($html, LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD); // 创建DOMXPath实例,关联到DOMDocument $xpath = new DOMXPath($dom); // 查询所有

标签 $h3Elements = $xpath->query("//h3"); // 存储提取到的标题和段落 $extractedData = []; // 遍历所有找到的

元素 foreach ($h3Elements as $h3Element) { // 获取

标签的文本内容 $h3Text = $h3Element->textContent; // 初始化段落文本为空 $paragraphText = ''; // 获取当前

元素的下一个兄弟元素 // nextElementSibling 属性返回紧邻当前元素的下一个兄弟元素节点, // 如果没有,则返回 null。 $nextElement = $h3Element->nextElementSibling; // 检查下一个元素是否存在且其标签名是否为'p' if ($nextElement && 'p' === $nextElement->nodeName) { // 如果是

标签,则获取其文本内容 $paragraphText = $nextElement->textContent; } // 将提取到的数据添加到结果数组 $extractedData[] = [ 'heading' => $h3Text, 'paragraph' => $paragraphText ]; } // 按照期望格式输出结果 echo "\n"; foreach ($extractedData as $item) { echo "

" . $item['heading'] . "

\n"; echo "

" . $item['paragraph'] . "

\n"; } ?>

预期输出


First h3

First paragraph for the first h3

Second h3

First paragraph for the second h3

Third h3

First paragraph for the third h3

注意事项与最佳实践

  1. 错误处理:DOMDocument::loadHTML()方法在遇到不规范的HTML时可能会发出警告。在生产环境中,可以使用libxml_use_internal_errors(true)来捕获这些错误而不是直接输出,然后通过libxml_get_errors()获取错误信息进行处理。
  2. XPath的灵活性:DOMXPath的强大之处在于其XPath查询能力。例如,如果你只需要特定父元素下的h3,可以使用更具体的XPath路径,如//div[@class="content"]/h3。
  3. nextElementSibling与nextSibling:nextElementSibling只返回元素节点,而nextSibling会返回包括文本节点、注释节点在内的任何类型的兄弟节点。在本例中,我们只关心元素,因此nextElementSibling是更合适的选择。
  4. HTML结构的假设:本教程的解决方案假设

    后面紧跟着的第一个元素如果是

    ,就是我们需要的段落。如果HTML结构更复杂,例如

    之间可能存在其他标签(如

    ),或者段落可能不在紧邻位置,那么需要调整逻辑,可能需要更复杂的XPath查询或更深入的DOM遍历。
  5. 内存消耗:对于非常大的HTML文件,将整个文件加载到DOMDocument可能会消耗大量内存。在这种情况下,可能需要考虑流式解析器或分块处理。
  6. 总结

    通过本教程,我们学习了如何利用PHP的DOMDocument和DOMXPath库,以一种健壮且高效的方式从HTML字符串中提取特定的标题及其紧邻的第一个段落。这种方法避免了正则表达式解析HTML的固有缺陷,提供了更高的准确性、稳定性和可维护性。掌握DOM解析技术是处理HTML内容时一项非常重要的技能,能够帮助开发者构建更可靠、更专业的Web应用程序。

相关专题

更多
php文件怎么打开
php文件怎么打开

打开php文件步骤:1、选择文本编辑器;2、在选择的文本编辑器中,创建一个新的文件,并将其保存为.php文件;3、在创建的PHP文件中,编写PHP代码;4、要在本地计算机上运行PHP文件,需要设置一个服务器环境;5、安装服务器环境后,需要将PHP文件放入服务器目录中;6、一旦将PHP文件放入服务器目录中,就可以通过浏览器来运行它。

2622

2023.09.01

php怎么取出数组的前几个元素
php怎么取出数组的前几个元素

取出php数组的前几个元素的方法有使用array_slice()函数、使用array_splice()函数、使用循环遍历、使用array_slice()函数和array_values()函数等。本专题为大家提供php数组相关的文章、下载、课程内容,供大家免费下载体验。

1628

2023.10.11

php反序列化失败怎么办
php反序列化失败怎么办

php反序列化失败的解决办法检查序列化数据。检查类定义、检查错误日志、更新PHP版本和应用安全措施等。本专题为大家提供php反序列化相关的文章、下载、课程内容,供大家免费下载体验。

1510

2023.10.11

php怎么连接mssql数据库
php怎么连接mssql数据库

连接方法:1、通过mssql_系列函数;2、通过sqlsrv_系列函数;3、通过odbc方式连接;4、通过PDO方式;5、通过COM方式连接。想了解php怎么连接mssql数据库的详细内容,可以访问下面的文章。

952

2023.10.23

php连接mssql数据库的方法
php连接mssql数据库的方法

php连接mssql数据库的方法有使用PHP的MSSQL扩展、使用PDO等。想了解更多php连接mssql数据库相关内容,可以阅读本专题下面的文章。

1418

2023.10.23

html怎么上传
html怎么上传

html通过使用HTML表单、JavaScript和PHP上传。更多关于html的问题详细请看本专题下面的文章。php中文网欢迎大家前来学习。

1234

2023.11.03

PHP出现乱码怎么解决
PHP出现乱码怎么解决

PHP出现乱码可以通过修改PHP文件头部的字符编码设置、检查PHP文件的编码格式、检查数据库连接设置和检查HTML页面的字符编码设置来解决。更多关于php乱码的问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

1447

2023.11.09

php文件怎么在手机上打开
php文件怎么在手机上打开

php文件在手机上打开需要在手机上搭建一个能够运行php的服务器环境,并将php文件上传到服务器上。再在手机上的浏览器中输入服务器的IP地址或域名,加上php文件的路径,即可打开php文件并查看其内容。更多关于php相关问题,详情请看本专题下面的文章。php中文网欢迎大家前来学习。

1306

2023.11.13

高德地图升级方法汇总
高德地图升级方法汇总

本专题整合了高德地图升级相关教程,阅读专题下面的文章了解更多详细内容。

42

2026.01.16

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PHP课程
PHP课程

共137课时 | 8.8万人学习

JavaScript ES5基础线上课程教学
JavaScript ES5基础线上课程教学

共6课时 | 7.5万人学习

PHP新手语法线上课程教学
PHP新手语法线上课程教学

共13课时 | 0.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号