XPath 是用于在 XML/HTML 中定位节点的查询语言,核心语法包括绝对路径(/)与相对路径(//)、属性筛选(如 @type='text')、文本匹配(text())、位置索引([3])及 contains() 等函数,结合 Chrome 控制台和 Selenium 可高效完成元素定位。

XPath 是用来在 XML 或 HTML 文档中定位节点的查询语言,网页抓取、自动化测试(如 Selenium)和浏览器开发者工具里经常用到。掌握几个核心语法,就能快速定位元素,不用死记硬背全部规则。
基础路径写法:从根或当前节点出发
最简单的 XPath 就是用 / 和 // 区分绝对与相对路径:
- /html/body/div[1]/p:从文档根开始,逐层精确匹配(绝对路径,一变动就容易失效)
-
//div/p:在整篇文档中查找所有 下的直接子
(相对路径,更常用、更健壮)- //a[@href]:找到所有带
href属性的标签用属性精准定位:比 class 或 id 更灵活
光靠标签名太宽泛,加属性条件才是日常主力用法:
- //input[@type='text']:找 type 值为 text 的 input 元素
-
//button[contains(@class, 'submit')]:class 属性包含 "submit"(适合 class 多值如
class="btn submit primary") - //*[starts-with(@id, 'user_')]:id 以 "user_" 开头的任意元素
- //img[@alt and not(@src)]:有 alt 属性但没 src 属性的图片(常用于检测缺失资源)
文本内容和位置筛选:处理重复结构很实用
当多个元素长得一样,就得靠文字或顺序区分:
- //li[text()='首页']:文字完全等于“首页”的列表项
-
//span[contains(text(), '价格')]/following-sibling::em:先找到含“价格”的 span,再选它后面同级的
-
(//div[@class='item'])[3]:取第 3 个 class 为 item 的 div(括号不能少,否则
//div[@class='item'][3]含义不同) - //tr[td/text()='张三']/td[2]:在某行中第一列是“张三”的表格行,取该行第二列
小技巧和避坑提醒
实际写 XPath 时,这几个点不注意就容易白忙活:
- 属性值带空格或特殊字符?用单引号包住整个值,比如 //a[@title='编辑 用户']
- HTML 中 class 名经常动态生成(如加哈希),优先用
contains(@class, 'btn')而不是@class='btn' - Chrome 控制台里按 Ctrl+F(或 Cmd+F)可直接在 Elements 面板里试 XPath,匹配到的节点会高亮
- Selenium 中用
find_element(By.XPATH, "..."),注意 Python 字符串里反斜杠要双写或用原始字符串r"//div[@data-id='100']"
基本上就这些。用熟了 //、@attr、contains()、text() 和位置索引,90% 的定位需求都能解决。不需要一次学完所有函数,边用边查反而记得牢。
- //a[@href]:找到所有带










