XPath是一种用于在XML文档中定位节点的查询语言,通过路径表达式导航元素、属性等。使用/从根节点开始,//匹配任意位置节点,.表示当前节点,..表示父节点;可选取元素(*)、属性(@)、文本(text())等;谓语[ ]用于过滤,如索引、属性值或条件判断;结合轴(如child::、parent::)和函数(如contains()、starts-with())可实现复杂查询,适用于爬虫、配置解析等场景。

XPath(XML Path Language)是一种在XML文档中查找和定位节点的查询语言。它通过路径表达式来导航XML文档的元素、属性和其他节点类型。掌握XPath语法,能帮助你在解析XML或HTML时快速定位目标数据。
基本路径表达式
XPath使用类似文件系统路径的语法来定位节点:
- /:从根节点开始选择。例如 /bookstore/book 表示从根开始,选择bookstore下的所有book子元素。
- //:从任意位置匹配节点。例如 //title 会选取文档中所有的title元素,无论它们在什么位置。
- .:表示当前节点。常用于相对路径中。
- ..:表示当前节点的父节点。
节点类型的选取
XPath支持多种节点类型,包括元素、属性、文本、注释等:
- *:通配符,匹配任意元素节点。如 /bookstore/* 选取bookstore下所有子元素。
- @属性名:选取属性。例如 //book/@category 获取所有book元素的category属性值。
- text():选取文本内容。如 //title/text() 返回所有title元素的文本。
- node():选取任意类型的节点(元素、文本、注释等)。
谓语(Predicates)过滤条件
谓语用于限定或过滤节点集合,写在方括号 [] 内:
- //book[1]:选取第一个book子元素(注意:XPath索引从1开始)。
- //book[last()]:选取最后一个book元素。
- //book[price>30]:选取price大于30的所有book。
- //book[@category='fiction']:选取category属性值为"fiction"的book。
- //book[2]/title:选取第二个book的title元素。
常用轴和函数
轴定义了相对于当前节点的节点集合方向,配合函数可实现更复杂查询:
- child:::子节点。如 child::book 等同于 book。
- parent:::父节点。如 ../author 或 parent::bookstore。
- following-sibling:::后面的兄弟节点。
- contains():判断字符串是否包含。如 //title[contains(text(), 'Java')]。
- starts-with():判断是否以指定字符串开头。如 //book[starts-with(@id, 'B')]。
- position():返回节点位置。如 //book[position() 选取前两个book。
基本上就这些。熟练使用组合路径、谓语和函数,就能精准提取XML中的任意信息。实际应用中,比如爬虫或配置读取,XPath非常实用。多练习常见结构,自然就熟悉了。不复杂但容易忽略细节,比如索引从1开始,或者属性要用@符号。记住了这些,基本够用。










