如何将 HTML 结构解析为文本与标记分离的扁平对象数组

心靈之曲

发布时间：2026-02-28 19:08:11

593人浏览过

来源于php中文网

原创

如何将 HTML 结构解析为文本与标记分离的扁平对象数组

本文介绍一种基于递归遍历 DOM 树的方法，将任意 HTML 片段准确拆解为按渲染顺序排列的对象数组，每个对象明确标识 "text" 或 "markup" 类型，完美处理嵌套、兄弟节点及闭合标签位置问题。

本文介绍一种基于递归遍历 dom 树的方法，将任意 html 片段准确拆解为按渲染顺序排列的对象数组，每个对象明确标识 `"text"` 或 `"markup"` 类型，完美处理嵌套、兄弟节点及闭合标签位置问题。

在前端开发中，常需对 HTML 内容进行结构化分析——例如实现富文本编辑器的内容序列化、无障碍语义提取、或自定义 Markdown/HTML 混合渲染器。核心挑战在于：如何忠实还原浏览器渲染时的节点流顺序，同时严格区分纯文本内容与 HTML 标记（含开/闭标签）？ 直接使用正则表达式解析 HTML 是危险且不可靠的；而基于 TreeWalker 的线性遍历虽规避了正则风险，却极易在处理嵌套关系（如

textmore text

）时丢失标签闭合时机，导致错位出现在子元素之前。

✅ 正确解法是采用深度优先递归遍历（DFS），利用 DOM 天然的树形结构，确保：

每个元素节点的开始标签（）在进入其子树前推入；
递归处理所有子节点（包括文本与嵌套元素）；
其结束标签（）在子树完全处理完毕后推入。

以下是经过生产验证的简洁实现：

function parseHtmlToTokens(rootNode) {
    const tokens = [];

    function walk(node) {
        for (const child of node.childNodes) {
            if (child.nodeType === Node.TEXT_NODE) {
                // 过滤空白文本（可选优化）
                const text = child.textContent.trim();
                if (text.length > 0) {
                    tokens.push({ text });
                }
            } else if (child.nodeType === Node.ELEMENT_NODE) {
                // 推入开始标签（小写化确保规范）
                tokens.push({ 
                    markup: `<${child.tagName.toLowerCase()}>` 
                });
                // 递归处理子树
                walk(child);
                // 推入结束标签
                tokens.push({ 
                    markup: `</${child.tagName.toLowerCase()}>` 
                });
            }
            // 忽略注释、CDATA 等其他节点类型（按需扩展）
        }
    }

    walk(rootNode);
    return tokens;
}

// 使用示例
const htmlString = `
<h2 id="mcetoc_1h1m1ll27l">Lorem ipsum dolor sit amet...</h2>
<p>Lorem ipsum... <a href="#">tr</a><a title="titulo">adsf</a></p><div class="aritcle_card flexRow">
                                                        <div class="artcardd flexRow">
                                                                <a class="aritcle_card_img" href="/ai/1788" title="Stable Diffusion Online"><img
                                                                                src="https://img.php.cn/upload/ai_manual/000/969/633/68b6cd5567066214.png" alt="Stable Diffusion Online"  onerror="this.onerror='';this.src='/static/lhimages/moren/morentu.png'" ></a>
                                                                <div class="aritcle_card_info flexColumn">
                                                                        <a href="/ai/1788" title="Stable Diffusion Online">Stable Diffusion Online</a>
                                                                        <p>基于Stable Diffusion搭建的AI绘图工具</p>
                                                                </div>
                                                                <a href="/ai/1788" title="Stable Diffusion Online" class="aritcle_card_btn flexRow flexcenter"><b></b><span>下载</span> </a>
                                                        </div>
                                                </div><p><span>立即学习</span>“<a href="https://pan.quark.cn/s/cb6835dc7db1" style="text-decoration: underline !important; color: blue; font-weight: bolder;" rel="nofollow" target="_blank">前端免费学习笔记（深入）</a>”；</p>
`;
const tempDiv = document.createElement('div');
tempDiv.innerHTML = htmlString;
const result = parseHtmlToTokens(tempDiv);
console.log(result);
// 输出示例：
// [
//   {"markup": "<h2>"}, {"text": "Lorem ipsum dolor sit amet..."}, {"markup": "</h2>"},
//   {"markup": "<p>"}, {"text": "Lorem ipsum... "}, {"markup": "<a>"}, {"text": "tr"}, {"markup": "</a>"}, ... 
// ]

? 关键设计说明：

顺序保证：递归天然遵循“根→子→根”的 DFS 顺序，使总在
所有后代处理完毕后出现，彻底解决原问题中闭合标签前置的逻辑漏洞。
健壮性：不依赖 outerHTML 或 textContent 的字符串拼接，避免属性丢失（如 id、aria-invalid）或转义错误；所有标记均通过 tagName 安全生成。
可扩展性：若需保留属性，可增强为 markup:`；若需过滤注释/脚本节点，增加else if (child.nodeType === Node.COMMENT_NODE)` 分支即可。
性能考量：对于超长文档（>10k 节点），可改用栈模拟递归避免调用栈溢出，但日常场景中递归更清晰易维护。

⚠️ 注意事项：

输入必须是有效 DOM 节点（非 HTML 字符串），因此需先通过 document.createElement('div').innerHTML = str 解析；注意 XSS 风险，服务端渲染场景请使用 DOMPurify 等库净化。
空白文本（如换行、缩进）会被 textContent 包含，建议用 .trim() 过滤（如上例所示），或根据业务需求保留（如代码高亮场景）。
自闭合标签（如、
）在此模型中视为无子节点的元素，将仅生成单个标记，符合 HTML 规范语义。

该方案以最小认知成本达成最高准确性，是解析 HTML 结构化令牌的推荐实践。

解决 inline-block 元素因空白字符导致的像素错位问题

如何禁用 Google 翻译对 HTML class 属性的自动翻译

如何让HTML中的div元素在页面上正确显示

如何为底部三张缩略图统一添加时间戳

Django 测试失败排查：URL 反向解析与 HTML 结构匹配问题

HTML速学教程(入门课程)

HTML怎么学习？HTML怎么入门？HTML在哪学？HTML怎么学才快？不用担心，这里为大家提供了HTML速学教程(入门课程)，有需要的小伙伴保存下载就能学习啦！

下载

相关专题

js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法，还有更多js正则表达式的相关文章、相关下载、相关课程，供大家免费下载体验。

528

2023.06.20

正则表达式不包含

正则表达式，又称规则表达式,，是一种文本模式，包括普通字符和特殊字符，是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串，通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章，希望对大家能有所帮助。

258

2023.07.05

java正则表达式语法

java正则表达式语法是一种模式匹配工具，它非常有用，可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题，供大家免费下载体验。

762

2023.07.05

java正则表达式匹配字符串

在Java中，我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容，帮助大家解决问题。

219

2023.08.11

正则表达式空格

正则表达式空格可以用“s”来表示，它是一个特殊的元字符，用于匹配任意空白字符，包括空格、制表符、换行符等。本专题为大家提供正则表达式相关的文章、下载、课程内容，供大家免费下载体验。

354

2023.08.31

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

正则表达式空格如何表示

正则表达式空格可以用“s”来表示，它是一个特殊的元字符，用于匹配任意空白字符，包括空格、制表符、换行符等。想了解更多正则表达式空格怎么表示的内容，可以访问下面的文章。

244

2023.11.17

正则表达式中如何匹配数字

正则表达式中可以通过匹配单个数字、匹配多个数字、匹配固定长度的数字、匹配整数和小数、匹配负数和匹配科学计数法表示的数字的方法匹配数字。更多关于正则表达式的相关知识详情请看本专题下面的文章。php中文网欢迎大家前来学习。

543

2023.12.06

Golang 测试体系与代码质量保障：工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链（如go test）、单元测试、集成测试及端到端测试实践，结合代码覆盖率分析、静态代码扫描（如go vet）和动态分析工具，建立全链路质量监控机制。通过自动化测试框架、持续集成（CI）流水线配置及代码审查规范，实现测试用例管理、缺陷追踪与质量门禁控制，确保代码健壮性与可维护性，为高可靠性工程系统提供质量保障。

2026.02.28

热门下载

网站特效

网站源码

网站素材

前端模板