Ruby Nokogiri库怎么用XPath搜索文档

星降

发布时间：2025-12-14 11:55:02

538人浏览过

来源于php中文网

原创

Nokogiri 是 Ruby 中最常用的 HTML/XML 解析库，用 XPath 搜索高效直接；加载文档后调用 search 返回 NodeSet，at 返回单个 Element，支持丰富 XPath 语法及命名空间处理。

ruby nokogiri库怎么用xpath搜索文档

Nokogiri 是 Ruby 中最常用的 HTML/XML 解析库，用 XPath 搜索非常直接高效。核心就是调用 search 或 at 方法，传入合法的 XPath 表达式。

基础用法：加载文档后直接 search

先解析 HTML 或 XML 字符串（或文件），再用 search 返回所有匹配节点（NodeSet），用 at 返回第一个匹配节点（Element）：

require 'nokogiri'
html = '
Hello
World'
doc = Nokogiri::HTML(html)
查找所有 p 标签
ps = doc.search('//p')          # → NodeSet 包含两个 
查找带 class="intro" 的 p 标签
intro_p = doc.at('//p[@class="intro"]')  # → Element 对象

							
								
								
									Sora
									Sora是OpenAI发布的一种文生视频AI大模型，可以根据文本指令创建现实和富有想象力的场景。
								
								下载 
							
						
获取文本内容
intro_p.text  # → "Hello"

常用 XPath 写法示例

XPath 支持丰富语法，以下是最常遇到的几种场景：

//div[@id='main'] —— 查找任意层级下 id 为 main 的 div
//a[contains(@href, 'github')] —— href 属性包含 "github" 的链接
//ul/li[1] —— 第一个 li 子元素（注意：XPath 索引从 1 开始）
//input[@type='text' and @name] —— type=text 且有 name 属性的 input
//div//span —— div 内任意深度的 span（后代，非直系子元素）
//div/child::span —— div 的直接子 span（等价于 //div/span）

处理结果：NodeSet 和 Element

search 返回的是 Nokogiri::XML::NodeSet，可像数组一样遍历或索引；at 返回单个 Nokogiri::XML::Element，更轻量：

遍历结果：doc.search('//a').each { |a| puts a['href'] }
取第一个：doc.search('//img').first['src'] 或 doc.at('//img')['src']
检查是否存在：doc.at('//button[@disabled]') ? '禁用中' : '可用'
提取多个属性：doc.search('//meta').map { |m| [m['name'], m['content']] }

注意命名空间和 HTML 特殊性

如果是 XML 且含命名空间（如 SVG、Atom），需先声明前缀：

xml = '...'
doc = Nokogiri::XML(xml)
doc.search('//dc:creator', 'dc' => 'http://purl.org/dc/elements/1.1/')

而对 HTML 文档，Nokogiri 默认使用宽松解析，XPath 大多能直接用。但注意：
– HTML 标签名不区分大小写，但 XPath 表达式里建议用小写（//div 而非 //DIV）；
– 某些属性名在 HTML 中是布尔型（如 checked），XPath 中仍用 [@checked] 判断是否存在即可。

基本上就这些。XPath 写熟了，配合 Nokogiri 的 search/at，抓取和校验结构化内容非常顺手。

PHP的DOMDocument是什么如何用它来创建和修改XML

XML数据岛是什么如何在HTML页面中嵌入XML数据

XML数据清洗和预处理在映射前如何做？

XPath的id()函数怎么快速查找具有特定ID的元素

PHP DOMDocument怎么用 DOMDocument类生成和解析XML方法

相关标签:

html git node svg github ai ruby html 命名空间 xml 字符串布尔型 map href input ul li github atom

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：MathML是什么怎么在网页上显示数学公式下一篇：怎么修复XML解析错误“实体引用未定义”

作者最新文章

抖音创作者激励计划报名入口抖音创作者激励计划活动入口

2026-01-18 13:50

宝书网怎么注册账号宝书网账号注册流程

2026-01-18 14:01

综合素质评价教师登录入口教师管理平台官方入口

2026-01-18 14:01

优酷官网观看入口优酷网页版在线播放入口

2026-01-18 14:44

宝书网同人小说入口宝书网热门同人txt下载入口

2026-01-18 14:48

哔哩轻小说APP下载入口_官方最新安卓版

2026-01-18 15:56

应用宝移动开放平台入口应用宝开发者服务入口

2026-01-18 16:16

Excel制作图表如何改变表示数据的颜色条_图表数据系列颜色自定义

2026-01-18 17:11

谷歌浏览器怎么关闭硬件加速 Chrome解决黑屏花屏问题【设置】

2026-01-18 17:49

HTML和PHP互相传值_HTML与PHP双向数据传输实现

2026-01-18 18:13

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

html版权符号

html版权符号是“©”，可以在html源文件中直接输入或者从word中复制粘贴过来，php中文网还为大家带来html的相关下载资源、相关课程以及相关文章等内容，供大家免费下载使用。

616

2023.06.14

html在线编辑器

html在线编辑器是用于在线编辑的工具，编辑的内容是基于HTML的文档。它经常被应用于留言板留言、论坛发贴、Blog编写日志或等需要用户输入普通HTML的地方，是Web应用的常用模块之一。php中文网为大家带来了html在线编辑器的相关教程、以及相关文章等内容，供大家免费下载使用。

653

2023.06.21

html网页制作

html网页制作是指使用超文本标记语言来设计和创建网页的过程，html是一种标记语言，它使用标记来描述文档结构和语义，并定义了网页中的各种元素和内容的呈现方式。本专题为大家提供html网页制作的相关的文章、下载、课程内容，供大家免费下载体验。

470

2023.07.31

html空格

html空格是一种用于在网页中添加间隔和对齐文本的特殊字符，被用于在网页中插入额外的空间，以改变元素之间的排列和对齐方式。本专题为大家提供html空格的相关的文章、下载、课程内容，供大家免费下载体验。

245

2023.08.01

html是什么

HTML是一种标准标记语言，用于创建和呈现网页的结构和内容，是互联网发展的基石，为网页开发提供了丰富的功能和灵活性。本专题为大家提供html相关的各种文章、以及下载和课程。

2894

2023.08.11

html字体大小怎么设置

在网页设计中，字体大小的选择是至关重要的。合理的字体大小不仅可以提升网页的可读性，还能够影响用户对网页整体布局的感知。php中文网将介绍一些常用的方法和技巧，帮助您在HTML中设置合适的字体大小。

505

2023.08.11

html转txt

html转txt的方法有使用文本编辑器、使用在线转换工具和使用Python编程。本专题为大家提供html转txt相关的文章、下载、课程内容，供大家免费下载体验。

312

2023.08.31

html文本框代码怎么写

html文本框代码：1、单行文本框【<input type="text" style="height:..;width:..;" />】；2、多行文本框【textarea style=";height:;"></textare】。

425

2023.09.01

高德地图升级方法汇总

本专题整合了高德地图升级相关教程，阅读专题下面的文章了解更多详细内容。

2026.01.16

热门下载

网站特效

网站源码

网站素材

前端模板