Java正则需显式编译Pattern再用Matcher匹配,matches()全串匹配、find()找子串、lookingAt()从开头匹配;String.matches()易误用因默认全串匹配;注意转义、null、flags选项及性能优化。

Java里用Pattern和Matcher做基础匹配
Java不支持像Python的re.search()或JS的str.match()那样一行匹配,必须显式编译正则再执行。最常用路径是:Pattern.compile() → pattern.matcher() → 调用find()、matches()或lookingAt()。
注意三个匹配方法的区别:
-
matches():要求整个输入字符串**完全匹配**正则(等价于正则前后加^和$) -
find():查找**任意位置的子串匹配**,可多次调用找所有匹配项 -
lookingAt():只从**字符串开头匹配**,不要求匹配整个串
String text = "abc123def456";
Pattern p = Pattern.compile("\\d+");
Matcher m = p.matcher(text);
while (m.find()) {
System.out.println(m.group()); // 输出 123 和 456
}
为什么String.matches()经常“不生效”
这个快捷方法底层也调用Pattern.matches(regex, input),但它的语义是**全串匹配**——很多人写"\\d+"想提取数字,结果返回false,因为"abc123"不等于纯数字串。
常见误用场景:
立即学习“Java免费学习笔记(深入)”;
- 想判断是否“包含数字”,却用了
str.matches("\\d+")→ 应该用str.matches(".*\\d+.*")或改用find() - 忽略转义:Java字符串里反斜杠要写成
"\\."才能表示正则中的字面量点号,写成"\."会报编译错误 - 没处理
null:传null进matches()直接抛NullPointerException
Pattern.compile()的flags参数怎么选
第二个参数控制匹配行为,最常遇到的是大小写和多行问题:
-
Pattern.CASE_INSENSITIVE:让[a-z]同时匹配大写字母,但注意它默认只对ASCII有效;如需Unicode全字符集,得加Pattern.UNICODE_CASE -
Pattern.MULTILINE:使^和$匹配每行起止,而非整个字符串首尾 -
Pattern.DOTALL:让.能匹配换行符(默认不匹配) - 多个flag用
|连接,例如Pattern.compile("\\bword\\b", Pattern.CASE_INSENSITIVE | Pattern.MULTILINE)
性能提示:频繁使用的正则建议缓存Pattern实例,避免重复编译。
替换操作别只记得String.replaceAll()
这个方法方便,但有陷阱:
- 第一个参数是正则,第二个是替换模板,其中
$1、$2引用捕获组,但$0是整个匹配(不是第0组) - 如果替换内容来自用户输入,且含
$或\,可能被误解析——此时应改用Matcher.appendReplacement()配合appendTail() - 想做“仅替换第一次”,用
replaceFirst()比replaceAll()更明确
String s = "price: $19.99, tax: $2.01";
// 错误:$19.99里的$会被当成分组引用
s.replaceAll("\\$(\\d+\\.\\d+)", "USD $1");
// 正确:先quoteReplacement避免特殊字符被解释
s.replaceAll("\\$(\\d+\\.\\d+)", "USD " + Matcher.quoteReplacement("$1"));
真正复杂的替换逻辑(比如根据匹配内容动态计算新值),绕不开Matcher的迭代流程。正则不是万能胶,过度依赖捕获组嵌套或回溯量大的表达式,在Java里容易触发StackOverflowError或明显卡顿——这时该考虑用更结构化的方式拆解问题。










