XPath 是用于在 XML 文档中查找和定位节点的语言,通过路径表达式选取节点或节点集。它将 XML 视为树形结构,支持元素、属性、文本等节点类型。基本语法包括:/ 从根节点选取,// 任意位置匹配,@ 选取属性,* 通配符,. 当前节点,.. 父节点。谓语 [ ] 用于条件筛选,如 //book[1] 选第一个 book,//book[@category="fiction"] 按属性过滤,//book[price>30] 按子元素值判断。轴定义遍历方向,如 child::、parent::、following-sibling::、ancestor::,可实现上下文相关定位。常用函数有 contains() 模糊匹配,starts-with() 判断前缀,text() 获取文本,count() 统计节点数。结合路径、谓语、轴和函数,能高效提取数据。实际使用中需注意大小写敏感、索引从 1 开始等细节,并借助 lxml 或 XPathFactory 等工具验证表达式。

XPath 是一门在 XML 文档中查找和定位节点的强大语言。它通过路径表达式来选取 XML 文档中的节点或节点集,常用于解析、提取数据或进行条件判断。掌握 XPath 的使用技巧,能大幅提升处理 XML 的效率。
基本语法与节点选取
XPath 将 XML 文档视为节点树结构,支持选取元素、属性、文本等类型节点。
常用路径表达式:-
/:从根节点开始选取。例如
/bookstore/book选取根下的 book 元素。 -
//:从任意位置匹配节点。如
//title选取文档中所有 title 元素。 -
@:选取属性。例如
//book/@category获取所有 book 的 category 属性值。 -
*:通配符,匹配任意元素节点。如
/bookstore/*选取 bookstore 下的所有子元素。 - .:当前节点;..:父节点。
使用谓语过滤节点
谓语用于对节点进行条件筛选,写在方括号 [] 中。
-
//book[1]:选取第一个 book 节点(索引从 1 开始)。 -
//book[last()]:选取最后一个 book 节点。 -
//book[@category="fiction"]:选取 category 属性为 fiction 的 book。 -
//book[price>30]:选取 price 子元素值大于 30 的 book。 -
//book[title="Harry Potter"]:选取 title 为 Harry Potter 的 book。
轴与复杂路径定位
轴定义了节点的遍历方向,可用于更精确地定位上下文相关的节点。
常用轴示例:-
child:::子节点,默认情况。如
child::book等同于book。 -
parent:::父节点。如
child::title/parent::*获取 title 的父元素。 -
following-sibling:::后面的同级节点。如
//book[1]/following-sibling::book获取第一个之后的所有 book。 -
ancestor:::所有祖先节点。如
//title/ancestor::bookstore。
结合轴和节点测试,可构建复杂的查询逻辑,适用于深层嵌套结构。
函数辅助查询
XPath 提供多种内置函数,增强查询能力。
常用函数:-
contains(text(), '关键词'):模糊匹配文本。如
//title[contains(., 'Potter')]。 - starts-with(@attr, '值前缀'):属性值以指定内容开头。
-
text():获取节点的文本内容。如
//book/title/text()返回 title 的文本。 -
count():统计节点数量。如
count(//book)。
基本上就这些。熟练使用路径表达式、谓语、轴和函数,就能高效提取 XML 中所需信息。实际应用中建议结合工具(如 Python 的 lxml、Java 的 XPathFactory)验证表达式准确性。不复杂但容易忽略细节,比如大小写敏感和索引从1开始。










