XPath中选取“不包含某个子节点”的元素需用not()函数否定子节点存在性,如//div[not(p)]选无p子元素的div,注意not()判断存在而非内容为空。

XPath 中想选“不包含某个子节点”的元素,核心是用 not() 函数配合子节点判断,关键在于写对谓词里的条件逻辑。
基本写法:用 not(child::tag) 或 not(tag)
要选取**没有特定子元素**的父元素,把 not() 放在方括号里,里面写“它有这个子节点”的反向表达:
-
//div[not(p)]—— 选取所有<div>中,不含任何 <p> 子元素 的那些 -
//ul[not(li[@class='hidden'])]—— 选取不含 class="hidden" 的<li>子项的<ul> -
//section[not(heading | h1 | h2)]—— 选取既没有<heading>,也没有<h1>或<h2>子节点的<section>
注意:not() 判断的是“是否存在”,不是“是否为空”
常见误区是以为 not(p) 表示“p 标签内容为空”,其实不是:
-
<div><p></p></div>→p元素存在(哪怕为空),所以//div[not(p)]不会选中它 -
<div>纯文本</div>→ 没有p子元素,//div[not(p)]会选中它 - 如果真要找“p 存在但内容为空”,得写:
//div[p and normalize-space(p) = '']
进阶:排除含特定子结构的元素
not() 可嵌套更复杂的路径,比如排除带链接的段落:
-
//p[not(a)]—— 不含<a>子标签的段落 -
//p[not(./a[@href])]—— 不含带 href 属性的 a 标签的段落(更精确) -
//article[not(footer or div[@class='ad'])]—— 排除含<footer>或广告 div 的文章
替代方案:用 count() 有时更直观
当逻辑稍复杂、或需要兼容老版本 XPath(如某些 IE 场景),可用 count() 模拟 not:
-
//div[count(p) = 0]等价于//div[not(p)] -
//table[count(tr[@class='summary']) = 0]→ 找不含 summary 类行的表格 - 优点是语义直白;缺点是性能略低(需计数),且不如 not() 简洁
基本上就这些。not() 的本质就是“否定存在性”,只要把你想排除的子节点路径写进括号里,再取反,就能精准定位干净的父元素。










