0

0

如何递归清理 HTML 结构:仅保留 li 标签,其余元素降级为纯文本

心靈之曲

心靈之曲

发布时间:2026-01-14 12:57:19

|

284人浏览过

|

来源于php中文网

原创

如何递归清理 HTML 结构:仅保留 li 标签,其余元素降级为纯文本

本文详解为何原递归函数无法处理 `

` 等非 `li` 元素,并提供基于 `for...of` 的健壮解决方案,确保所有非 `li` 元素(如 `

`、``、`

    `)被安全展开为其子文本节点,最终输出符合预期的纯净 html 片段。

问题根源在于 NodeList.prototype.forEach() 的执行时序与 DOM 树动态变更的冲突。当递归调用 testFn(e) 后立即执行 e.replaceWith(...e.childNodes) 时,e 被从 DOM 中移除,其子节点被插入到原位置——这会修改当前 node.childNodes 的长度和索引顺序。而 forEach() 内部是基于初始快照遍历的,后续迭代仍按原始 NodeList 进行,导致部分节点被跳过(尤其是紧邻被替换节点之后的兄弟节点),造成

等元素未被处理。

使用 for...of 循环可规避该问题,因为它在每次迭代时都重新获取当前 childNodes 的迭代器,能响应实时 DOM 变化;更重要的是,它使控制流更清晰、避免闭包陷阱,便于逻辑调试。

以下是修正后的完整实现:

let html = `
<ol>
<li><a href="https://www.php.cn/link/93ac0c50dd620dc7b88e5fe05c70e15b">foo link text</a>;</li>
<li><a href="https://www.php.cn/link/93ac0c50dd620dc7b88e5fe05c70e15b">bar link text</a>;</li>
</ol>
<p>Paragraph text baz and biz text.</p><div class="aritcle_card flexRow">
                                                        <div class="artcardd flexRow">
                                                                <a class="aritcle_card_img" href="/ai/2400" title="星月写作"><img
                                                                                src="https://img.php.cn/upload/ai_manual/001/246/273/176369517165546.png" alt="星月写作"  onerror="this.onerror='';this.src='/static/lhimages/moren/morentu.png'" ></a>
                                                                <div class="aritcle_card_info flexColumn">
                                                                        <a href="/ai/2400" title="星月写作">星月写作</a>
                                                                        <p>专为网络小说、 剧本创作者打造的AI增效工具</p>
                                                                </div>
                                                                <a href="/ai/2400" title="星月写作" class="aritcle_card_btn flexRow flexcenter"><b></b><span>下载</span> </a>
                                                        </div>
                                                </div><p><span>立即学习</span>“<a href="https://pan.quark.cn/s/cb6835dc7db1" style="text-decoration: underline !important; color: blue; font-weight: bolder;" rel="nofollow" target="_blank">前端免费学习笔记(深入)</a>”;</p>
<p>Paragraph text.</p>
`;

html = `<body>${html}</body>`;
const parsed = new DOMParser().parseFromString(html, 'text/html');

function flattenNonLiElements(node) {
  for (const child of node.childNodes) {
    // 先递归处理子节点(深度优先)
    flattenNonLiElements(child);

    // 仅对元素节点进行判断和替换
    if (child.nodeType !== Node.ELEMENT_NODE) continue;

    // 仅保留 <li>,其余元素全部展开为子节点(含文本、注释等)
    if (child.nodeName.toLowerCase() !== 'li') {
      // 注意:replaceWith(...) 会将 child 替换为其所有直接子节点
      // 若 child 无子节点(如空 <p></p>),则被替换为空白(即消失)
      child.replaceWith(...child.childNodes);
    }
  }
}

flattenNonLiElements(parsed.body);
console.log(parsed.body.innerHTML);
// 输出:
// <li>foo link text;</li>
// <li>bar link text;</li>
// Paragraph text baz and biz text.
// Paragraph text.

关键要点总结

  • ❌ 避免在 DOM 修改过程中使用 forEach() 遍历 childNodes;
  • ✅ 优先选用 for...of 或传统 for (let i = 0; i
  • ✅ replaceWith(...childNodes) 是安全展开元素内容的标准方式,天然支持混合节点类型(文本、元素、注释);
  • ⚠️ 注意:若目标元素(如

    )内含嵌套 HTML(如 ),它们也会被一并展开——这正是需求所要求的“只留文本”效果;如需保留特定内联标签,需额外白名单逻辑;

  • ? 建议在真实项目中添加边界检查(如 node && node.childNodes),增强鲁棒性。

该方案简洁、可预测,适用于任意层级 HTML 结构的语义化精简处理。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
php中foreach用法
php中foreach用法

本专题整合了php中foreach用法的相关介绍,阅读专题下面的文章了解更多详细教程。

265

2025.12.04

length函数用法
length函数用法

length函数用于返回指定字符串的字符数或字节数。可以用于计算字符串的长度,以便在查询和处理字符串数据时进行操作和判断。 需要注意的是length函数计算的是字符串的字符数,而不是字节数。对于多字节字符集,一个字符可能由多个字节组成。因此,length函数在计算字符串长度时会将多字节字符作为一个字符来计算。更多关于length函数的用法,大家可以阅读本专题下面的文章。

954

2023.09.19

go语言闭包相关教程大全
go语言闭包相关教程大全

本专题整合了go语言闭包相关数据,阅读专题下面的文章了解更多相关内容。

151

2025.07.29

DOM是什么意思
DOM是什么意思

dom的英文全称是documentobjectmodel,表示文件对象模型,是w3c组织推荐的处理可扩展置标语言的标准编程接口;dom是html文档的内存中对象表示,它提供了使用javascript与网页交互的方式。想了解更多的相关内容,可以阅读本专题下面的文章。

4323

2024.08.14

DOM是什么意思
DOM是什么意思

dom的英文全称是documentobjectmodel,表示文件对象模型,是w3c组织推荐的处理可扩展置标语言的标准编程接口;dom是html文档的内存中对象表示,它提供了使用javascript与网页交互的方式。想了解更多的相关内容,可以阅读本专题下面的文章。

4323

2024.08.14

li是什么元素
li是什么元素

li是HTML标记语言中的一个元素,用于创建列表。li代表列表项,它是ul或ol的子元素,li标签的作用是定义列表中的每个项目。本专题为大家li元素相关的各种文章、以及下载和课程。

436

2023.08.03

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

22

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

48

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

93

2026.03.06

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3.6万人学习

AngularJS教程
AngularJS教程

共24课时 | 4.1万人学习

CSS教程
CSS教程

共754课时 | 42万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号