Pattern.compile()需预编译以复用,避免重复开销;matches()要求全串匹配,find()查找子串;取group前须确保匹配成功且判空;reset()比新建Matcher轻量但不重置region等状态;跨行匹配需显式加DOTALL标志。

Pattern.compile() 为什么必须先调用
Java 的正则匹配不是“拿来就用”,Pattern 是正则编译后的不可变对象,重复使用同一正则时,直接复用 Pattern.compile() 返回的实例能避免反复编译开销。如果每次匹配都写 Pattern.matches("regex", str),底层其实也偷偷编译了一次——但无法复用,对高频匹配(比如日志行解析)会明显拖慢性能。
常见错误是把 Pattern 当成工具类静态方法来用,结果在循环里反复 compile():
for (String line : lines) {
// ❌ 错误:每次循环都重新编译
boolean ok = Pattern.matches("\\d{3}-\\d{2}-\\d{4}", line);
}
正确做法是提前编译好:
Pattern ssnPattern = Pattern.compile("\\d{3}-\\d{2}-\\d{4}");
for (String line : lines) {
// ✅ 复用已编译的 Pattern
Matcher m = ssnPattern.matcher(line);
if (m.find()) { ... }
}
Matcher.find() 和 Matcher.matches() 的区别在哪
这两个方法行为完全不同,但名字太像,极易混淆:
立即学习“Java免费学习笔记(深入)”;
-
matches()要求**整个输入序列完全匹配**正则——等价于在正则前后自动加 ^ 和 $ -
find()只要字符串中**存在子串满足正则**就返回 true,且可多次调用向后查找
例如用正则 "ab" 测试字符串 "xabyabz":
-
matcher.matches()→ false(因为整个字符串不是 "ab") -
matcher.find()→ true(第一次找到 "ab" 在索引 1) - 再调一次
find()→ true(第二次找到 "ab" 在索引 4)
注意:Matcher 是有状态的,find() 会移动内部指针;如果想重头再找,得调用 m.reset() 或重新获取 matcher(str)。
如何安全提取捕获组(group)内容
调用 group(int) 前必须确认 find() 或 matches() 返回了 true,否则抛 IllegalStateException。更隐蔽的问题是:即使匹配成功,某个捕获组也可能没参与匹配(比如分支中未走通),此时 group(n) 返回 null。
示例正则:"(\\d+)-(\\w+)?-(\\d+)". 中间组 (\\w+)? 是可选的:
Pattern p = Pattern.compile("(\\d+)-(\\w+)?-(\\d+)");
Matcher m = p.matcher("123--456");
if (m.matches()) {
System.out.println(m.group(1)); // "123"
System.out.println(m.group(2)); // null ← 容易 NPE!
System.out.println(m.group(3)); // "456"
}
安全做法是显式判空:
String middle = m.group(2);
if (middle != null) { ... }
或者用 groupCount() 知道总共有几个捕获组(不包括 group(0),即全匹配),但不能告诉你哪些实际被填充了。
Matcher.reset() 和 new Matcher 的成本差异
Matcher 不是线程安全的,但它是可重用的。频繁创建新 Matcher(如 pattern.matcher(str) 每次都调)比复用一个 Matcher 并调 reset(str) 开销略大——虽然差别通常微乎其微,但在极端吞吐场景下值得留意。
关键约束是:reset() 只重置输入和指针位置,不会清空 region、hitEnd、requireEnd 等状态。如果你之前设过 region(10, 20),reset() 后 region 还在。真正干净的复用方式是:
- 只用于简单匹配 → 直接
pattern.matcher(str)更清晰 - 需精细控制(如 region、透明边界)→ 复用
Matcher并显式reset(str).useTransparentBounds(false)
别为了省对象而让逻辑变晦涩;Java GC 对短命 Matcher 很友好,优先保证代码可读性。
真正容易被忽略的是:Pattern 编译时默认不支持跨行匹配,. 不匹配换行符,除非显式加上 Pattern.DOTALL 标志——这个标志一旦漏掉,用 .* 匹配多行文本就会静默失败。










