Nokogiri是Ruby中解析XML的首选库,安装后可通过Nokogiri::XML加载文件或字符串,利用CSS选择器或XPath定位元素,再通过.text和.attribute提取数据,并支持修改与输出。其基于libxml2,性能优于REXML,兼具强大查询、高速处理与完整操作功能,使XML处理更高效简洁。

在Ruby中解析XML,Nokogiri库是首选工具。它的核心优势在于将复杂的解析任务变得简单直观,让你能像操作数据一样处理XML内容。
如何使用Nokogiri解析XML
开始前需安装gem:`gem install nokogiri`。解析过程分三步走:
- 加载文档:用 `Nokogiri::XML(File.open("文件路径"))` 读取文件,或 `Nokogiri::XML(字符串)` 解析内存中的XML字符串。
- 定位元素:利用CSS选择器(如 `doc.css("book title")`)或XPath(如 `doc.xpath("//book/title")`)精准找到目标节点。这两种方式都非常灵活,可以根据标签名、属性甚至层级关系进行搜索。
- 提取与操作数据:找到节点后,调用 `.text` 获取文本内容,`.attribute("属性名")` 读取属性值。你还能修改内容、添加新节点或删除现有节点,最后用 `doc.to_xml` 输出完整的XML字符串。
Nokogiri的核心优势
相比Ruby内置的REXML或其他库,Nokogiri在性能和功能上都有显著提升。
- 查询能力强大:同时支持CSS选择器和XPath两种业界标准查询语言。这意味着你可以选择最顺手或最高效的方式来定位数据,特别是在处理结构复杂或嵌套很深的文档时,这种灵活性至关重要。
- 处理速度快,效率高:它底层基于C语言编写的libxml2库,这使得它的解析速度远超纯Ruby实现的库。对于大型XML文件,Nokogiri能更快地完成加载和查询,节省大量时间。
- 功能全面,易于使用:不仅限于解析,还提供了一整套用于遍历、修改和构建XML/HTML文档的API。无论是做网络爬虫抓取网页数据,还是处理企业级的数据交换文件,它都能胜任,代码写起来也更简洁清晰。
基本上就这些。Nokogiri把繁琐的XML处理变成了一个流畅的体验。










