PHP DOM解析：高效获取HTML中的特定标题及其紧邻段落

霞舞

发布时间：2025-12-03 14:24:00

823人浏览过

来源于php中文网

原创

PHP DOM解析：高效获取HTML中的特定标题及其紧邻段落

本教程将深入探讨如何使用php的domdocument和domxpath库，从复杂的html字符串中准确提取所有指定级别的标题（例如

）及其紧随的第一个段落（

）。我们将详细解释为何应避免使用正则表达式解析html，并提供一个结构清晰、易于理解的专业解决方案，帮助开发者高效、可靠地处理html文档内容。

在Web开发中，我们经常需要从HTML内容中提取特定信息。当目标是获取HTML中的特定标签及其紧邻的后续内容时，许多开发者可能会首先想到使用正则表达式。然而，由于HTML的结构复杂性和非正则性，使用正则表达式解析HTML通常被认为是一种不可靠且容易出错的方法。W3C HTML规范的灵活性、标签嵌套的任意性以及可能存在的格式错误，都使得正则表达式难以正确处理所有情况。

相比之下，PHP提供了功能强大的DOMDocument和DOMXPath扩展，它们能够将HTML文档解析成一个可操作的树状结构（Document Object Model, DOM），并允许我们使用XPath查询语言来精确地定位和提取所需元素。这是一种更健壮、更可靠且更符合HTML本质的解析方法。

使用DOMDocument和DOMXPath解析HTML

本节将详细介绍如何利用DOMDocument和DOMXPath来获取HTML字符串中所有的

标题及其紧随的第一个

段落。

1. 准备HTML数据

首先，我们需要一个包含目标标题和段落的HTML字符串作为输入。

立即学习“PHP免费学习笔记（深入）”；

<?php

$html = <<<TAG
<h1>This is my title</h1>

<p>This is a text right under my h1 title.</p>
<p>This is some more text under my h1 title</p>

<h2>This is my level 2 heading</h2>
<p>This is text right under my level 2 heading</p>

<h3>First h3</h3>
<p>First paragraph for the first h3</p>

<h3>Second h3</h3>
<p>First paragraph for the second h3</p>

<h3>Third h3</h3>
<p>First paragraph for the third h3</p>
<p>Second paragraph for the third h3</p>

<h2>This is my level 2 heading</h2>
<p>This is text right under my level 2 heading</p>
TAG;

2. 加载HTML到DOMDocument对象

DOMDocument类用于创建和操作HTML或XML文档。我们需要将HTML字符串加载到它的实例中。为了处理可能不完整的HTML片段并避免DOMDocument自动添加、

等标签，我们可以使用LIBXML_HTML_NOIMPLIED和LIBXML_HTML_NODEFDTD选项。

$dom = new DOMDocument();
// 加载HTML，避免自动添加不必要的HTML/DOCTYPE声明，以便更精确地处理片段
$dom->loadHTML($html, LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD);

3. 创建DOMXPath对象

DOMXPath类允许我们对DOMDocument对象执行XPath查询。XPath是一种强大的查询语言，用于在XML或HTML文档中选择节点。

$xpath = new DOMXPath($dom);

4. 使用XPath查询所有目标元素

我们将使用XPath表达式//h3来选择文档中所有的

元素。//表示从文档的任何位置开始查找，h3指定了要查找的标签名。

// 查询文档中所有的h3标签
$results = $xpath->query("//h3");

$results将是一个DOMNodeList对象，其中包含了所有匹配的

元素。

5. 遍历结果并提取内容

现在，我们可以遍历DOMNodeList中的每一个

元素，并尝试获取其紧邻的第一个

段落。

对于每个
元素，我们可以通过其textContent属性获取其文本内容。
要获取紧邻的同级元素，我们可以使用nextElementSibling属性。这个属性返回当前元素的下一个同级元素节点。
获取到下一个元素后，我们需要检查它的nodeName属性，确保它确实是一个
标签。

志设AI
志设AI是一站式AI设计平台，集“AI生图 + 在线设计 + 素材交易 + 收益分成”于一体。

下载

$extracted_data = []; // 用于存储提取到的数据

foreach ($results as $result) {
    $heading_text = $result->textContent;
    $paragraph_text = '';

    // 获取当前h3元素的下一个同级元素
    $next_element = $result->nextElementSibling;

    // 检查下一个元素是否存在，并且其标签名是否为'p'
    if ($next_element && 'p' === $next_element->nodeName) {
        $paragraph_text = $next_element->textContent;
    }

    $extracted_data[] = [
        'heading' => $heading_text,
        'paragraph' => $paragraph_text
    ];
}

6. 完整示例代码

将以上步骤整合，得到完整的PHP脚本：

<?php

$html = <<<TAG
<h1>This is my title</h1>

<p>This is a text right under my h1 title.</p>
<p>This is some more text under my h1 title</p>

<h2>This is my level 2 heading</h2>
<p>This is text right under my level 2 heading</p>

<h3>First h3</h3>
<p>First paragraph for the first h3</p>

<h3>Second h3</h3>
<p>First paragraph for the second h3</p>

<h3>Third h3</h3>
<p>First paragraph for the third h3</p>
<p>Second paragraph for the third h3</p>

<h2>This is my level 2 heading</h2>
<p>This is text right under my level 2 heading</p>
TAG;

$dom = new DOMDocument();
// 加载HTML，避免自动添加不必要的HTML/DOCTYPE声明
// LIBXML_HTML_NOIMPLIED: 防止libxml自动添加html/body标签
// LIBXML_HTML_NODEFDTD: 防止libxml自动添加默认的DOCTYPE
@$dom->loadHTML($html, LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD); // 使用@抑制可能出现的警告

$xpath = new DOMXPath($dom);

// 查询文档中所有的h3标签
$h3_elements = $xpath->query("//h3");

$extracted_content = [];

foreach ($h3_elements as $h3_node) {
    $heading_text = $h3_node->textContent;
    $paragraph_text = '';

    // 获取当前h3元素的下一个同级元素
    $next_sibling = $h3_node->nextElementSibling;

    // 检查下一个同级元素是否存在且是<p>标签
    if ($next_sibling && 'p' === $next_sibling->nodeName) {
        $paragraph_text = $next_sibling->textContent;
    }

    $extracted_content[] = [
        'heading' => $heading_text,
        'paragraph' => $paragraph_text
    ];
}

// 打印结果
foreach ($extracted_content as $item) {
    echo "<h3>" . htmlspecialchars($item['heading']) . "</h3>";
    echo "<p>" . htmlspecialchars($item['paragraph']) . "</p>";
}

?>

预期输出

运行上述代码，将得到以下格式的输出：

<h3>First h3</h3><p>First paragraph for the first h3</p>
<h3>Second h3</h3><p>First paragraph for the second h3</p>
<h3>Third h3</h3><p>First paragraph for the third h3</p>

请注意，htmlspecialchars()函数用于防止XSS攻击，确保输出的文本内容被正确编码。

注意事项与最佳实践

避免正则表达式解析HTML：再次强调，对于任何非简单、非受控的HTML结构，都应避免使用正则表达式进行解析。DOM解析器是处理HTML的行业标准和最佳实践。
错误处理：DOMDocument::loadHTML()方法在处理格式不佳的HTML时可能会发出警告。在生产环境中，可以使用@符号抑制警告，或者通过libxml_use_internal_errors(true)来捕获并处理这些错误，而不是直接显示它们。
nextElementSibling的局限性：nextElementSibling仅返回紧邻的下一个元素节点。如果
和

之间有其他非元素节点（如文本节点、注释节点）或非

的元素节点，nextElementSibling将返回这些节点或null。如果需要跳过中间的非元素节点或查找更远的

标签，可能需要调整XPath表达式或编写更复杂的遍历逻辑。例如，XPath表达式./following-sibling::p[1]可以用于查找当前元素的第一个

同级兄弟节点。
编码问题：确保HTML内容的字符编码与DOMDocument处理时使用的编码一致。如果HTML没有明确指定编码，DOMDocument可能会尝试猜测或使用默认编码。可以通过$dom->loadHTML($html, LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD, 'UTF-8');或在HTML字符串中包含meta charset标签来明确指定。
XPath的灵活性：DOMXPath非常强大，可以编写各种复杂的查询来定位元素。例如，如果你想获取所有
下的所有

，而不仅仅是紧邻的第一个，你可以调整遍历逻辑或XPath表达式。

总结

通过本教程，我们学习了如何利用PHP的DOMDocument和DOMXPath库，以一种健壮和高效的方式从HTML字符串中提取特定的标题及其紧邻的段落。这种方法避免了正则表达式解析HTML的固有缺陷，提供了一个可靠且易于维护的解决方案。掌握DOM解析技术是任何处理HTML内容的PHP开发者必备的技能。

PHP怎么将JSON转字符串 PHP数组转JSON字符串【实例】

PHP 动态解析 JSON 中带时间戳的 _grant_ 键值对

PHP 中按主数组顺序对子数组进行排序的简洁实现方法

php字符串转整型 php如何强转数据类型为int【案例】

如何在 PHP MySQL 中高效查询指定用户 ID 范围的数据

HTML速学教程(入门课程)

HTML怎么学习？HTML怎么入门？HTML在哪学？HTML怎么学才快？不用担心，这里为大家提供了HTML速学教程(入门课程)，有需要的小伙伴保存下载就能学习啦！

下载

相关专题

js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法，还有更多js正则表达式的相关文章、相关下载、相关课程，供大家免费下载体验。

530

2023.06.20

正则表达式不包含

正则表达式，又称规则表达式,，是一种文本模式，包括普通字符和特殊字符，是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串，通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章，希望对大家能有所帮助。

258

2023.07.05

java正则表达式语法

java正则表达式语法是一种模式匹配工具，它非常有用，可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题，供大家免费下载体验。

763

2023.07.05

java正则表达式匹配字符串

在Java中，我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容，帮助大家解决问题。

219

2023.08.11

正则表达式空格

正则表达式空格可以用“s”来表示，它是一个特殊的元字符，用于匹配任意空白字符，包括空格、制表符、换行符等。本专题为大家提供正则表达式相关的文章、下载、课程内容，供大家免费下载体验。

355

2023.08.31

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

正则表达式空格如何表示

正则表达式空格可以用“s”来表示，它是一个特殊的元字符，用于匹配任意空白字符，包括空格、制表符、换行符等。想了解更多正则表达式空格怎么表示的内容，可以访问下面的文章。

244

2023.11.17

正则表达式中如何匹配数字

正则表达式中可以通过匹配单个数字、匹配多个数字、匹配固定长度的数字、匹配整数和小数、匹配负数和匹配科学计数法表示的数字的方法匹配数字。更多关于正则表达式的相关知识详情请看本专题下面的文章。php中文网欢迎大家前来学习。

545

2023.12.06

Golang 测试体系与代码质量保障：工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链（如go test）、单元测试、集成测试及端到端测试实践，结合代码覆盖率分析、静态代码扫描（如go vet）和动态分析工具，建立全链路质量监控机制。通过自动化测试框架、持续集成（CI）流水线配置及代码审查规范，实现测试用例管理、缺陷追踪与质量门禁控制，确保代码健壮性与可维护性，为高可靠性工程系统提供质量保障。

2026.02.28

热门下载

网站特效

网站源码

网站素材

前端模板