如何使用 X-ray 解析非嵌套 HTML 结构为对象数组

花韻仙語

发布时间：2026-02-04 11:26:08

993人浏览过

来源于php中文网

原创

如何使用 X-ray 解析非嵌套 HTML 结构为对象数组

x-ray 本身不支持直接抓取兄弟节点构成的逻辑区块，但可通过 jsdom 预处理 html，将散列的 `

` 及其后续同级内容动态包裹为独立容器，再用 x-ray 按标准父子结构解析，最终得到符合预期的 sections 数组。

在实际网页爬虫场景中，常遇到类似文档式 HTML：多个

标题平级排列，各自后跟可选的

副标题和

无统一父容器分隔各节

直接尝试 xray("h2", [...]) 会失败，因为 X-ray 会将每个

作为独立上下文，而

和

），无法生成多节结果。

✅ 核心思路：DOM 预处理 + X-ray 后解析
借助 jsdom 构建内存 DOM，遍历所有

，将其及后续连续非-

兄弟节点（如

、

中。这样就把线性结构转化为多个具备明确父子关系的块级容器，X-ray 即可自然地对每个

执行对象映射。

以下是完整、健壮的实现方案（含错误处理与空值兼容）：

const { JSDOM } = require('jsdom');
const xray = require('x-ray')();

// 自定义 trim 过滤器（X-ray 默认不内置）
xray.filters({
  trim: (value) => typeof value === 'string' ? value.trim() : value
});

async function parseNonNestedSections(html, url = '') {
  const dom = new JSDOM(html);
  const doc = dom.window.document;

  // 步骤1：定位所有 h2，并按逻辑分组包裹
  const h2s = doc.querySelectorAll('article h2'); // 限定在 article 内更安全
  if (h2s.length === 0) return { pageTitle: '', sections: [] };

  // 创建临时根容器，避免污染 body
  const wrapper = doc.createElement('div');
  wrapper.innerHTML = doc.querySelector('article').innerHTML;

  // 重置 wrapper 内部引用
  const h2List = wrapper.querySelectorAll('h2');

  for (let i = 0; i < h2List.length; i++) {
    const h2 = h2List[i];
    const sectionDiv = doc.createElement('section'); // 语义化标签更佳

    // 移动 h2 到新 section
    sectionDiv.appendChild(h2);

    // 收集后续同级节点，直到下一个 h2 或 null
    let next = h2.nextElementSibling;
    while (next && next.tagName !== 'H2') {
      const toMove = next;
      next = next.nextElementSibling;
      sectionDiv.appendChild(toMove);
    }

    // 插入到 wrapper 中原位置（保持顺序）
    h2.parentNode.insertBefore(sectionDiv, h2);
    h2.remove(); // 清理已移动的 h2
  }

  // 步骤2：用 X-ray 解析预处理后的 HTML
  const processedHtml = wrapper.innerHTML;

  return new Promise((resolve, reject) => {
    xray(processedHtml, {
      pageTitle: 'h1 | trim',
      sections: xray('section', [{
        subtitle: 'h3 | trim',
        elements: xray('ul li', ['| trim']) // 返回字符串数组，自动过滤空值
      }])
    })((err, result) => {
      if (err) return reject(err);
      // 确保 elements 始终为数组（即使 ul 不存在）
      result.sections = result.sections.map(sec => ({
        subtitle: sec.subtitle || undefined,
        elements: Array.isArray(sec.elements) ? sec.elements : []
      }));
      resolve(result);
    });
  });
}

// 使用示例
const sampleHtml = `
  Page title
  
    Title 1
    Subtitle 1
    Element 1
Element 2
Element 3
    Title 2
    Subtitle 2
    Title 3
    Subtitle 3
    Element 1
Element 2
Element 3
  
`;

parseNonNestedSections(sampleHtml)
  .then(console.log)
  .catch(console.error);

? 关键注意事项：

ARC Lab

腾讯旗下ARC实验室推出的AI人像修复、抠图和增强工具

下载

立即学习“前端免费学习笔记（深入）”；

✅ 务必限定作用域：querySelectorAll('article h2') 而非全页 h2，避免误包其他区域标题；
✅ 使用 section 替代 div：提升语义清晰度，且不影响 X-ray 解析；
✅ 显式处理空值：subtitle 可能为 undefined（当某节无
），elements 统一归一化为 []；
⚠️ 性能提示：对超大页面，频繁 DOM 操作可能有开销；若需高吞吐，建议切换至 Puppeteer 或 Cheerio + 手动遍历；
? 扩展性友好：该模式可轻松适配
+

+
等混合结构，只需调整 sectionDiv.appendChild(...) 的条件逻辑。
此方案在保留 X-ray 声明式优势的同时，以最小侵入性补足了其对线性语义结构的解析短板，是生产环境中兼顾可读性、可维护性与可靠性的推荐实践。

CSS媒体查询在Safari中失效的常见原因与解决方案

如何让右对齐的输入框支持从光标左侧按 Delete 键删除字符

javascript如何集成第三方库与框架生态【教程】

javascript如何修改元素样式_如何动态改变CSS【教程】

javascript如何实现响应式设计与移动适配【教程】

HTML速学教程(入门课程)

HTML怎么学习？HTML怎么入门？HTML在哪学？HTML怎么学才快？不用担心，这里为大家提供了HTML速学教程(入门课程)，有需要的小伙伴保存下载就能学习啦！

下载

相关标签:

css html js node app win 爬虫作用域字符串数组排列 undefined 对象作用域 dom 选择器 ul table

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何定位容器可视区域外的第一个列表项位置下一篇：暂无

作者最新文章

如何在 Qdrant 中安全地向已有图像集合追加新数据（而非覆盖重建）

2026-02-01 16:26

JavaScript 多条件动态过滤：实现国家与作物的独立/组合筛选

2026-02-01 16:27

如何在 Go 中获取 Windows 系统已安装服务列表

2026-02-01 16:29

Vaadin 23.3.5 路由 404 问题的根源与修复方案

2026-02-01 16:36

JavaScript 中模板字符串插值会强制转换为字符串类型的原因详解

2026-02-01 16:42

Go Web 开发中使用 entr 实时重启服务时端口被占用的解决方案

2026-02-01 16:50

如何使用数字输入框动态构建订单商品数组

2026-02-01 16:52

如何在 Matplotlib 中实现单图实时更新而非重复创建新窗口

2026-02-01 17:17

Python 属性命名中下划线前缀的正确用法与设计意图

2026-02-01 17:31

如何将一维用户数组结构化为嵌套的多维配置数组

2026-02-01 17:43

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

undefined是什么

undefined是代表一个值或变量不存在或未定义的状态。它可以作为默认值来判断一个变量是否已经被赋值，也可以用于设置默认参数值。尽管在不同的编程语言中，undefined可能具有不同的含义和用法，但理解undefined的概念可以帮助我们更好地理解和编写程序。本专题为大家提供undefined相关的各种文章、以及下载和课程。

5452

2023.07.31