0

0

使用 simple_html_dom 高效提取标题下的所有段落

聖光之護

聖光之護

发布时间:2025-11-23 11:25:01

|

984人浏览过

|

来源于php中文网

原创

使用 simple_html_dom 高效提取标题下的所有段落

本教程详细阐述了如何利用 `voku/simple_html_dom` 库,从复杂的html结构中准确提取并组织特定标题下的所有段落。文章深入分析了 `next_sibling()` 方法的正确用法,解决了仅获取首个段落的常见问题,并提供了遍历同级元素直至遇到下一个标题的完整解决方案,确保数据按标题分组,结构清晰。

在进行网页内容抓取和数据处理时,我们经常需要从非结构化的HTML中提取特定模式的数据。一个常见的场景是,需要将文章内容按照标题进行分组,例如,提取每个

标题下的所有

段落,并将其组织成一个数组。本文将详细介绍如何使用 voku/simple_html_dom 库高效地实现这一目标。

理解问题:next_sibling() 的局限性

假设我们有以下HTML结构:

Title 1

Text 1

Text 2

立即学习前端免费学习笔记(深入)”;

Title 2

Text 3

Text 4

Text 5

我们期望得到的数据结构是:

[
    'Title 1' => ['Text 1', 'Text 2'],
    'Title 2' => ['Text 3', 'Text 4', 'Text 5'],
]

初学者可能会尝试使用 next_sibling('p') 方法来获取标题后的所有段落,例如:

use voku\helper\HtmlDomParser;

$htmlContent = '

Title 1

Text 1

Text 2

立即学习前端免费学习笔记(深入)”;

Title 2

Text 3

Text 4

Text 5

'; $dom = HtmlDomParser::str_get_html($htmlContent); $result = []; foreach ($dom->find('h2') as $h2Element) { $paragraphs = []; // 尝试获取下一个p标签 foreach ($h2Element->next_sibling('p') as $pElement) { // 注意:这里可能不会按预期工作 $paragraphs[] = $pElement->text(); } $result[$h2Element->text()] = $paragraphs; } print_r($result);

然而,这种方法往往只能获取到每个

标签后的第一个

标签。这是因为 next_sibling('p') 查找的是当前元素的紧邻的下一个且符合选择器的同级元素。如果后面还有多个

标签,它们并不是 next_sibling('p') 的直接结果集。要获取所有后续的

CAPTURELAB
CAPTURELAB

一款面向Steam游戏玩家的AI工具,自动生成集锦

下载

标签,我们需要更通用的同级元素遍历方法。

解决方案:迭代遍历同级元素

正确的做法是,从每个

元素开始,持续遍历其所有后续的同级元素,直到遇到下一个

元素为止。在遍历过程中,判断当前同级元素的类型,如果是

标签,则将其内容收集起来。

以下是实现此逻辑的详细代码:

Title 1
      

Text 1

Text 2

立即学习前端免费学习笔记(深入)”;

Title 2

Text 3

Text 4

Text 5

Title 3

Not a paragraph

Text 6

'; // 使用 HtmlDomParser 解析HTML字符串 $dom = HtmlDomParser::str_get_html($htmlContent); // 初始化结果数组 $groupedContent = []; // 遍历所有的 h2 元素 foreach ($dom->find('h2') as $h2Element) { $h2Text = $h2Element->text(); // 获取 h2 的文本作为键 $paragraphs = []; // 用于存储当前 h2 下的段落 // 获取 h2 元素的紧邻下一个同级元素 $currentSibling = $h2Element->next_sibling(); // 循环遍历所有后续同级元素,直到没有同级元素或遇到下一个 h2 while ($currentSibling) { // 如果遇到下一个 h2 元素,则停止当前 h2 的段落收集 if ($currentSibling->nodeName() === "h2") { break; } // 如果是 p 元素,则将其文本添加到当前 h2 的段落数组中 if ($currentSibling->nodeName() === "p") { $paragraphs[] = $currentSibling->text(); } // 移动到下一个同级元素 $currentSibling = $currentSibling->next_sibling(); } // 将收集到的段落添加到结果数组中 $groupedContent[$h2Text] = $paragraphs; } // 打印最终结果 echo "
";
print_r($groupedContent);
echo "
"; // 清理 DOM 对象以释放内存 $dom->clear(); unset($dom); ?>

代码解析

  1. HtmlDomParser::str_get_html($htmlContent): 将HTML字符串解析成一个DOM对象,方便后续操作。
  2. foreach ($dom->find('h2') as $h2Element): 这是一个外层循环,用于遍历HTML文档中所有的

    标签。每次循环,$h2Element 都会指向一个

    元素。

  3. $h2Text = $h2Element->text();: 获取当前

    元素的纯文本内容,这将作为我们最终结果数组的键。

  4. $currentSibling = $h2Element->next_sibling();: 这是关键一步。我们不再尝试直接匹配 p 标签,而是获取

    元素的紧邻的下一个同级元素,无论它是什么标签。

  5. while ($currentSibling): 这是一个内层循环,只要当前还有同级元素存在,就继续遍历。
  6. if ($currentSibling->nodeName() === "h2") { break; }: 在内层循环中,我们首先检查当前同级元素的标签名。如果它也是一个

    标签,这意味着我们已经到达了下一个标题的边界,应该停止为当前的 h2Text 收集段落,并跳出内层循环。

  7. if ($currentSibling->nodeName() === "p") { $paragraphs[] = $currentSibling->text(); }: 如果当前同级元素是

    标签,则将其纯文本内容添加到 $paragraphs 数组中。

  8. $currentSibling = $currentSibling->next_sibling();: 每次循环结束时,我们都会将 $currentSibling 更新为它的下一个同级元素,以便继续遍历。
  9. $groupedContent[$h2Text] = $paragraphs;: 当内层循环结束后(即遇到了下一个

    或没有更多同级元素),将收集到的所有段落数组赋值给 $groupedContent 中对应的 h2Text 键。

预期输出

运行上述代码,将得到以下结果:

Array
(
    [Title 1] => Array
        (
            [0] => Text 1
            [1] => Text 2
        )

    [Title 2] => Array
        (
            [0] => Text 3
            [1] => Text 4
            [2] => Text 5
        )

    [Title 3] => Array
        (
            [0] => Text 6
        )

)

注意事项与最佳实践

  • HTML结构一致性: 这种方法依赖于HTML结构中

    标签都是同级元素。如果HTML结构更复杂,例如

    标签嵌套在

    中,并且

    的同级元素,则需要调整遍历逻辑。

  • 内存管理: 对于非常大的HTML文档,simple_html_dom 可能会消耗较多内存。在处理完DOM对象后,建议使用 $dom->clear(); unset($dom); 来释放内存。
  • 错误处理: 在实际应用中,应考虑HTML可能不规范的情况。例如,如果

    后面没有

    标签,或者有其他非预期的标签,当前的逻辑仍然可以正确处理(跳过非

    标签)。

  • 性能: 对于极其庞大的HTML文件,频繁地调用 next_sibling() 可能会有性能开销。在性能敏感的场景下,可以考虑其他更底层的DOM解析器或XPath查询。
  • 灵活性: 此方法可以很容易地扩展到处理其他标签类型。例如,如果需要提取

    下的所有
      列表,只需在 if ($currentSibling->nodeName() === "p") 旁边添加一个 if ($currentSibling->nodeName() === "ul") 的判断即可。

  • 总结

    通过灵活运用 voku/simple_html_dom 的 next_sibling() 方法并结合循环判断,我们可以有效地从复杂的HTML结构中提取出按标题分组的段落内容。关键在于理解 next_sibling() 的工作原理,并将其用于迭代遍历所有同级元素,直到遇到预设的终止条件(如下一个标题)。这种模式在网页数据抓取和内容重组中具有广泛的应用价值。

相关专题

更多
html版权符号
html版权符号

html版权符号是“©”,可以在html源文件中直接输入或者从word中复制粘贴过来,php中文网还为大家带来html的相关下载资源、相关课程以及相关文章等内容,供大家免费下载使用。

616

2023.06.14

html在线编辑器
html在线编辑器

html在线编辑器是用于在线编辑的工具,编辑的内容是基于HTML的文档。它经常被应用于留言板留言、论坛发贴、Blog编写日志或等需要用户输入普通HTML的地方,是Web应用的常用模块之一。php中文网为大家带来了html在线编辑器的相关教程、以及相关文章等内容,供大家免费下载使用。

656

2023.06.21

html网页制作
html网页制作

html网页制作是指使用超文本标记语言来设计和创建网页的过程,html是一种标记语言,它使用标记来描述文档结构和语义,并定义了网页中的各种元素和内容的呈现方式。本专题为大家提供html网页制作的相关的文章、下载、课程内容,供大家免费下载体验。

470

2023.07.31

html空格
html空格

html空格是一种用于在网页中添加间隔和对齐文本的特殊字符,被用于在网页中插入额外的空间,以改变元素之间的排列和对齐方式。本专题为大家提供html空格的相关的文章、下载、课程内容,供大家免费下载体验。

245

2023.08.01

html是什么
html是什么

HTML是一种标准标记语言,用于创建和呈现网页的结构和内容,是互联网发展的基石,为网页开发提供了丰富的功能和灵活性。本专题为大家提供html相关的各种文章、以及下载和课程。

2898

2023.08.11

html字体大小怎么设置
html字体大小怎么设置

在网页设计中,字体大小的选择是至关重要的。合理的字体大小不仅可以提升网页的可读性,还能够影响用户对网页整体布局的感知。php中文网将介绍一些常用的方法和技巧,帮助您在HTML中设置合适的字体大小。

506

2023.08.11

html转txt
html转txt

html转txt的方法有使用文本编辑器、使用在线转换工具和使用Python编程。本专题为大家提供html转txt相关的文章、下载、课程内容,供大家免费下载体验。

312

2023.08.31

html文本框代码怎么写
html文本框代码怎么写

html文本框代码:1、单行文本框【<input type="text" style="height:..;width:..;" />】;2、多行文本框【textarea style=";height:;"></textare】。

426

2023.09.01

html编辑相关教程合集
html编辑相关教程合集

本专题整合了html编辑相关教程合集,阅读专题下面的文章了解更多详细内容。

37

2026.01.21

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

相关下载

更多

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PHP课程
PHP课程

共137课时 | 9.1万人学习

JavaScript ES5基础线上课程教学
JavaScript ES5基础线上课程教学

共6课时 | 9.5万人学习

PHP新手语法线上课程教学
PHP新手语法线上课程教学

共13课时 | 0.9万人学习

最新文章

更多
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号