JavaScript正则核心在于理解引擎执行机制而非死记语法:贪婪/惰性本质是回溯策略差异,lastIndex控制匹配位置且仅对g/y生效,捕获组编号严格按左括号顺序,替换推荐用函数避免$符号歧义。

JavaScript 正则表达式不是“学完语法就能用”,而是「写错一个标志就全匹配失败」「捕获组嵌套后 $1 对不上号」「g 和 y 标志混用导致 exec() 死循环」——入门关键不在记符号,而在理解引擎如何执行、状态如何流转。
为什么 /a+/ 能匹配 "aaa",但 /a+?/ 在 matchAll() 中表现不同?
贪婪与惰性本质是回溯策略差异,不是“多匹配”或“少匹配”的简单描述。JS 正则引擎(V8)默认贪婪,会先吞掉所有可能字符,再逐步吐出试探;惰性则相反,先试最小长度,不成就扩展。
-
/a+/在"aaab"中匹配整个"aaa",一次到位 -
/a+?/在"aaab"中匹配第一个"a",后续调用exec()才继续推进 -
matchAll()返回迭代器,每次调用内部都重置 lastIndex(除非带g或y),所以惰性量词在matchAll(/a+?/g)中会逐个返回"a",而非单次返回"aaa"
exec() 的 lastIndex 是什么?为什么带 g 的正则在循环中会跳过匹配?
lastIndex 是正则实例的可读写属性,表示下一次匹配的起始索引。它只对带 g(全局)或 y(粘连)标志的正则生效,且仅在 exec() 和 test() 中被自动更新。
- 不手动重置
lastIndex = 0,重复调用exec()会从上次结束位置继续,可能漏掉开头匹配 -
y比g更严格:要求匹配必须从lastIndex开始,不能跳过任何字符,否则直接返回null - 多个线程(或闭包中复用同一正则实例)时,
lastIndex是共享状态,极易引发竞态 —— 推荐每次用新字面量/(...)/g,或显式new RegExp(..., 'g')
捕获组嵌套时,result[1] 到底对应哪个括号?
捕获组编号严格按左括号 ( 出现顺序从 1 开始递增,和是否嵌套、是否命名无关。命名组((?)只是提供别名,不改变编号逻辑。
立即学习“Java免费学习笔记(深入)”;
const re = /a((b)(c(d)))/; const str = "abcbd"; const result = re.exec(str); // result[0] → "abcbd"(完整匹配) // result[1] → "bcbd"(外层第一个 ( ... )) // result[2] → "b"(第二个 (b)) // result[3] → "cd"(第三个 (c(d))) // result[4] → "d"(最内层 (d))
- 非捕获组
(?:...)不占编号,可用于分组但不提取 - 命名组如
/(?,可通过a((b)(c(d))))/ result.groups.main访问,但编号仍为 1 - 如果某组未参与匹配(比如
/(a)?b/中a缺失),对应项为undefined,不是空字符串
替换时 $1、$&、$$ 这些符号怎么用才不翻车?
字符串替换中的 $ 符号是特殊元字符,只在 String.prototype.replace() 的第二个参数为字符串时生效。函数作为替换参数时,完全绕过这套机制,更可控。
-
$1→ 第一个捕获组内容;$&→ 整个匹配字符串;$$→ 字面量$ - 若捕获组为空或未匹配,
$1直接消失(不是报错),容易造成意外截断 - 动态替换强烈建议用函数:
str.replace(/(\w+):(\w+)/g, (match, key, value) => `${key.toUpperCase()}:${value}`),避免$解析歧义和转义混乱 - 注意:函数参数顺序固定为
(match, p1, p2, ..., offset, string),不要依赖命名
真正卡住人的从来不是「怎么写正则」,而是「为什么这次没匹配上」——打开浏览器控制台,用 console.log(re.lastIndex) 和 re.exec(str) 单步看返回值,比查文档快十倍。正则没有隐藏行为,只有你没看见的状态。











