grep默认使用基础正则(BRE),?、+、|、()、{}需转义;grep -E启用扩展正则(ERE),符号直接可用;grep -P支持PCRE,含\d、\b、非贪婪等,但兼容性受限;locale设置影响UTF-8匹配,LC_ALL=C会导致中文/emoji匹配失败。

grep 默认不支持扩展正则,grep 和 grep -E 行为完全不同
Linux 下的 grep 默认用的是基础正则(BRE),括号 ()、花括号 {}、问号 ?、加号 + 这些都得加反斜杠才能当元字符用,比如想匹配“abc”或“abcc”,写 grep 'abcc?' file 是没用的——它会字面匹配 c?;得写成 grep 'abcc\?' file。更自然的写法是直接切到扩展正则:grep -E 'abc(c?)' file 或 grep -E 'abc+' file。
常见错误现象:grep 'a+b' file 匹配不到 aab,因为 + 在 BRE 里不是量词,而是普通字符;grep -E 'a+b' 才对。
-
grep:BRE,元字符少,?、+、|、()、{}都要转义才生效 -
grep -E(等价于egrep):ERE,这些符号直接可用,写法接近日常直觉 -
grep -P:PCRE,支持\d、\s、非贪婪.*?等,但部分老系统(如 CentOS 6)默认不带 PCRE 支持
匹配中文、emoji 或 UTF-8 特殊字符时,LC_ALL=C 会导致正则失效
Linux 终端默认 locale 影响正则引擎对字节和字符的识别。比如文件里有中文“测试123”,执行 grep '测.*3' file 可能不匹配——因为 LC_ALL=C 强制按单字节处理,而 UTF-8 中文是多字节,. 无法跨字节匹配。此时 .* 实际只匹配第一个字节,后面就断了。
解决方法很简单:临时切 locale:LC_ALL=en_US.UTF-8 grep -E '测.*3' file。如果不确定当前 locale,用 locale 查看,优先选带 UTF-8 的值(如 en_US.UTF-8、zh_CN.UTF-8)。
- 避免在脚本里硬写
LC_ALL=C,除非你明确需要字节级匹配(比如处理二进制混入文本的场景) -
LANG或LC_CTYPE单独设也行,但LC_ALL优先级最高,会覆盖其他设置 - 某些容器环境默认
LC_ALL=C,这是最常踩坑的地方
grep -o 提取内容时,别忘了 -P 才支持非贪婪和 Unicode 类
想从日志里抽 IP 地址、邮箱或 URL,grep -o 很方便,但基础 grep 或 -E 不支持 \d、\w、.*? 这类写法。比如提取 IPv4:grep -o -P '\b\d{1,3}(\.\d{1,3}){3}\b' 比用 [0-9] 和一堆 \{1,3\} 清晰得多。
常见错误:用 grep -oE '[0-9]{1,3}(\.[0-9]{1,3}){3}' 匹配 IP,结果可能抽到 999.999.999.999 ——它不校验数字范围,也没单词边界,容易连上其他数字。加 \b 就得切到 -P。
-
-o只输出匹配部分,不带上下文,适合做管道上游(比如接sort | uniq -c) -
-P支持\b(词界)、\d(数字)、\s(空白)、(?i)(忽略大小写)等,但性能略低于-E - 注意
-P在 Alpine Linux 等精简镜像中可能不可用,先grep --version确认
用 grep 做行过滤时,^ 和 $ 的行为取决于是否用 -x 或 -v
^ 和 $ 默认是“行首/行尾锚点”,不是“整行匹配”。比如 grep '^error' file 匹配所有以 error 开头的行,但 grep '^error$' 才只匹配单独一行就是 error 的情况。很多人误以为 ^error$ 和 error 效果一样,其实后者会匹配 myerror.txt,前者不会。
真正要“精确匹配整行”,有两个更稳的方式:grep -x 'error'(不用写 ^$),或者 grep -v 配合取反逻辑(比如排除空行:grep -v '^$')。
-
grep '^$'匹配空行(只有换行符) -
grep -v '^$'排除空行,但注意:如果某行只有空格,^$不会匹配它,得用grep -v '^[[:space:]]*$' -
grep -x是语义最清晰的整行匹配方式,且兼容所有 grep 实现
grep --help 里那句 “-E, -F, -G, -P” 的区别,比背正则语法有用得多。










