XPath中选取“不包含某个子节点”的元素需用not()函数否定子节点存在性,如//div[not(p)]选无p子元素的div,注意not()判断存在而非内容为空。

XPath 中想选“不包含某个子节点”的元素,核心是用 not() 函数配合子节点判断,关键在于写对谓词里的条件逻辑。
基本写法:用 not(child::tag) 或 not(tag)
要选取**没有特定子元素**的父元素,把 not() 放在方括号里,里面写“它有这个子节点”的反向表达:
-
//div[not(p)]—— 选取所有中,不含任何子元素
的那些//ul[not(li[@class='hidden'])]—— 选取不含 class="hidden" 的子项的//section[not(heading | h1 | h2)]—— 选取既没有,也没有或子节点的注意:not() 判断的是“是否存在”,不是“是否为空”
常见误区是以为
not(p)表示“p 标签内容为空”,其实不是:-
→p元素存在(哪怕为空),所以//div[not(p)]不会选中它 -
→ 没有纯文本p子元素,//div[not(p)]会选中它 - 如果真要找“p 存在但内容为空”,得写:
//div[p and normalize-space(p) = '']
进阶:排除含特定子结构的元素
not() 可嵌套更复杂的路径,比如排除带链接的段落:
-
//p[not(a)]—— 不含子标签的段落 -
//p[not(./a[@href])]—— 不含带 href 属性的 a 标签的段落(更精确) -
//article[not(footer or div[@class='ad'])]—— 排除含或广告 div 的文章
替代方案:用 count() 有时更直观
当逻辑稍复杂、或需要兼容老版本 XPath(如某些 IE 场景),可用
count()模拟 not:-
//div[count(p) = 0]等价于//div[not(p)] -
//table[count(tr[@class='summary']) = 0]→ 找不含 summary 类行的表格 - 优点是语义直白;缺点是性能略低(需计数),且不如 not() 简洁
基本上就这些。not() 的本质就是“否定存在性”,只要把你想排除的子节点路径写进括号里,再取反,就能精准定位干净的父元素。










