Go中提取正则分组需用Submatch系列方法:FindSubmatch返回[][][]byte含完整匹配及各分组,FindStringSubmatch处理string更便捷,须判空nil并防越界。

在 Go 中使用 regexp 包提取正则匹配中的分组内容,核心是 Submatch 系列方法。它们能安全地从原始字节切片中切出匹配子串,避免越界或空指针问题。
用 FindSubmatch 提取所有匹配的完整子串和分组
当你有一段文本,并希望一次性拿到所有匹配项及其捕获组(括号内的内容),FindSubmatch 是最直接的选择。它返回二维切片:[][][]byte,每项是 [完整匹配, 分组1, 分组2, ...]。
示例:
注意:正则中必须用() 明确写出捕获组,否则不会出现在结果里
re := regexp.MustCompile(`(\d{4})-(\d{2})-(\d{2})`)
text := "今天是2023-12-25,昨天是2023-12-24"
matches := re.FindAllSubmatch([]byte(text), -1) // 找全部匹配
for _, m := range matches {
fmt.Printf("完整匹配: %s\n", m[0])
fmt.Printf("年: %s, 月: %s, 日: %s\n", m[1], m[2], m[3])
}
// 输出:
// 完整匹配: 2023-12-25
// 年: 2023, 月: 12, 日: 25
// 完整匹配: 2023-12-24
// 年: 2023, 月: 12, 日: 24
用 FindStringSubmatch 更方便地处理字符串
如果输入是 string 类型,且你希望结果也保持为 string(而非 []byte),优先用 FindStringSubmatch 及其变体。它自动完成 string ↔ []byte 转换,语义更清晰。
立即学习“go语言免费学习笔记(深入)”;
-
FindStringSubmatch:返回第一个匹配的分组切片([][]string) -
FindAllStringSubmatch:返回所有匹配的分组切片 -
FindStringSubmatchIndex:返回字节位置索引,适合需要原字符串上下文的场景
示例:
re := regexp.MustCompile(`name:(\w+), age:(\d+)`)
s := "info: name:Alice, age:30; name:Bob, age:25"
all := re.FindAllStringSubmatch([]byte(s), -1)
for _, match := range all {
name := string(match[1]) // 第一个捕获组
age := string(match[2]) // 第二个捕获组
fmt.Printf("Name=%s, Age=%s\n", name, age)
}
小心 nil 和越界:分组未匹配时返回 nil
Go 的 Submatch 方法对未成功匹配的分组统一返回 nil(不是空字符串),这点和 Python 不同。直接转 string 会 panic,务必先判空。
- 用
len(m[i]) > 0或m[i] != nil判断该分组是否命中 - 若正则含可选分组(如
(\w+)?),对应位置可能为nil - 访问
m[1]前确保len(m) > 1,否则 panic
安全写法示例:
if len(m) > 2 && m[2] != nil {
city := string(m[2])
// 安全使用 city
}
想只取某个分组?用 FindSubmatchIndex + 原始字节切片
如果你只需要第 2 个分组的值,又不想遍历整个 [][][]byte,可以用 FindSubmatchIndex 获取起止位置,再手动切片。适用于性能敏感或大文本场景。
示例(提取 URL 中的域名):
re := regexp.MustCompile(`https?://([^/]+)/`)
b := []byte("Visit https://golang.org/pkg/regex")
idx := re.FindSubmatchIndex(b)
if idx != nil {
domain := b[idx[0][2]:idx[0][3]] // 第二个分组的区间
fmt.Println(string(domain)) // golang.org
}
基本上就这些。Golang 的 Submatch 操作不复杂但容易忽略 nil 和索引边界,记住“有括号才分组、没匹配就 nil、切前先判断”,就能稳稳提取想要的内容。










