掌握JavaScript正则高级技巧可提升文本处理效率:1. 分组捕获与反向引用(如/(\b\w+\b)\s+\1/)提取重复词;2. 零宽断言((?=...)和(?

JavaScript中的正则表达式除了基础的匹配、替换和测试外,掌握一些高级技巧能大幅提升处理文本的效率和准确性。以下是几个实用且强大的高级匹配方法。
1. 分组捕获与反向引用
使用括号 () 可以创建捕获分组,提取匹配中的特定部分。在正则内部可通过 \1, \2 等进行反向引用,匹配之前分组的内容。
例如:匹配重复单词/(\b\w+\b)\s+\1/g 可以匹配像 "hello hello" 这样的重复词,其中 \1 引用第一个分组的结果。
const text = "The the quick brown fox fox jumps"; console.log(text.replace(/(\b\w+\b)\s+\1/gi, "$1")); // 输出:"The quick brown fox jumps"
2. 零宽断言(Lookahead 和 Lookbehind)
零宽断言用于指定某个位置前后必须满足某种条件,但不包含这些字符在匹配结果中。
立即学习“Java免费学习笔记(深入)”;
正向先行断言 (?=...):匹配后面紧跟特定内容的位置。
/Java(?=Script)/ 匹配 "Java" 仅当其后是 "Script",如 "JavaScript" 中的 "Java"。
/Java(?!Script)/ 匹配 "Java" 后面不是 "Script" 的情况,比如 "Java is great" 中的 "Java"。
匹配前面有美元符号的数字,如 "0" 中的 "100"。负向后行断言 (?:
[置顶]Android中的JSON详细总结 中文WORD版下载JSON(JavaScript Object Notation) 定义:一种轻量级的数据交换格式,具有良好的可读和便于快速编写的特性。业内主流技术为其提供了完整的解决方案(有点类似于正则表达式,获得了当今大部分语言的支持),从而可以在不同平台间进行数据交换。JSON采用兼容性很高的文本格式,同时也具备类似于C语言体系的行为。有需要的朋友可以下载看看
匹配前面没有 "$" 的数字,避免匹配价格。3. 惰性匹配与贪婪匹配控制
默认情况下,量词如 *、+ 是贪婪的,尽可能多地匹配。加上 ? 变为惰性匹配。
例子:从字符串
"中提取每个 div 内容。helloworld"贪婪匹配:
/.*/ 会匹配整个字符串。惰性匹配:
/.*?/ 可分别匹配两个 div 块。 建议在提取标签或括号内容时优先使用惰性匹配,避免越界。4. 使用修饰符提升灵活性
正则表达式支持多个修饰符,组合使用可增强功能。
示例:匹配多行注释(含换行)
- g:全局匹配,找到所有结果
- i:忽略大小写
- m:多行模式,^ 和 $ 匹配每行起止
- s:dotAll 模式,让 . 匹配换行符(ES2018)
- u:启用 Unicode 正确支持,处理 emoji 或特殊字符
/\/\*[\s\S]*?\*\//gs利用 [\s\S] 或开启 s 修饰符来跨行匹配。现代写法:
/\/\*.*?\*\//gs在支持 s 的环境中更清晰。5. 动态构建正则表达式
使用 RegExp 构造函数可以动态插入变量,适合搜索高亮、关键词过滤等场景。
例子:高亮搜索词function highlight(text, word) { const escaped = word.replace(/[.*+?^${}()|[\]\\]/g, '\\$&'); const regex = new RegExp(`(${escaped})`, 'gi'); return text.replace(regex, '$1'); }
注意对用户输入进行转义,防止正则注入。基本上就这些。灵活运用分组、断言、修饰符和动态构造,能让正则在复杂文本处理中游刃有余。关键是理解匹配机制,避免过度依赖正则处理结构化数据(如 HTML 解析)。
![[置顶]Android中的JSON详细总结 中文WORD版](https://img.php.cn/upload/manual/000/000/012/170892733569108.png)









