断言不消耗字符,只判断位置前后条件:肯定前瞻(?=...)要求右侧匹配模式,否定前瞻(?!...)要求右侧不匹配;肯定后顾(?

Python正则中的断言(assertions)不匹配实际字符,只判断某个位置**前后是否满足条件**,匹配成功与否取决于“环境”,而非消耗文本。它们分为前瞻(lookahead)和后顾(lookbehind)两类,又各分肯定与否定形式。用对了能精准控制匹配边界,避免误抓、多抓或漏抓。
肯定前瞻 (?=...):后面必须跟着什么
检查当前匹配位置**右侧紧邻内容是否符合模式**,但不占用字符。常用于“匹配某串,但要求它后面是特定内容”。
- 比如提取所有后面跟 -ing 的动词原形:
r"\b\w+(?=-ing\b)"匹配 run in run-ing,但不匹配单独的 run - 密码校验中要求至少含一个数字:
r"^(?=.*\d).{8,}$"——(?=.*\d)确保整串里某处有数字,但不指定在哪
否定前瞻 (?!...):后面不能跟着什么
确保当前位置右侧**不以指定模式开头**。适合排除干扰项。
- 匹配不是 http:// 开头的 URL:
r"(?!http://)\b\w+://\S+"(注意需配合更完整逻辑,此处仅示意) - 找单词 class,但排除 class_name 中的 class:
r"\bclass\b(?!_)"——(?!_)表示后面不能是下划线
肯定后顾 (?:前面必须是啥
检查当前匹配位置**左侧紧邻内容是否符合模式**。注意:Python 要求后顾中的模式必须是**定长**(fixed-width),不能含 *、+、{2,} 等不定长量词。
立即学习“Python免费学习笔记(深入)”;
- 提取 $ 后面的价格数字:
r"(? 可匹配 <em>$19.99</em> 中的 <strong>19.99</strong> - 匹配被引号包围的字符串内容(不含引号):
r"(?(简化版,实际需处理转义)
否定后顾 (?:前面不能是啥
确保当前位置左侧**不以指定模式结尾**,同样要求模式定长。
- 匹配独立单词 cat,但排除 scat 或 concat 中的 cat:
r"(? —— 前后都不是字母 - 找未被注释掉的 print(即前面没有 #):
r"(?(简单场景,复杂注释需更严谨)
断言本质是“零宽”——它不挪动匹配指针,也不捕获内容。写的时候别忘了加括号,也别把它当成普通分组来引用。熟练之后,很多原本要靠切片、循环或多次 re.search 解决的问题,一行正则就能干净搞定。










