
本文介绍一种安全、可移植的正则表达式方案,用于在 json 字符串中精准定位并掩码邮箱字段的局部字符(如 `t***.***%**@gmail.com`),避免误匹配 html 标签或相邻字段,兼容 java 等主流语言。
在处理敏感数据(如用户邮箱)时,直接对原始 JSON 字符串进行脱敏是常见需求。但若沿用纯邮箱字符串的掩码正则(如 (?<=.{1})(?=[a-zA-Z0-9]).(?=.*@)),在嵌入 JSON 的上下文中往往失效——原因在于 JSON 中邮箱值被包裹在双引号内,且前后存在结构化字段(如 "email":"..."),导致原正则无法准确锚定“邮箱值内部”的字符位置,尤其易受 HTML 标签(如 <a class="__cf_email__">)或转义字符干扰。
✅ 正确思路:结合 JSON 字段边界 + 邮箱值内容约束,而非泛匹配。推荐使用以下增强型正则:
String jsonString = "{ "name":"jhon", "email":"test.ing%<a class="__cf_email__" data-cfemail="e7d7d5a7808a868e8bc984888a" href="/cdn-cgi/l/email-protection">[email protected]</a>" }";
String maskedJson = jsonString.replaceAll("(?<=email":"[^\s"]{1,100})[a-zA-Z0-9](?=[^\s"@]*@)", "*");
System.out.println(maskedJson);
// 输出:{ "name":"jhon", "email":"t***.***%**@gmail.com" }? 正则解析(关键设计点):
- (?<=email":"[^\s"]{1,100}):有限长度正向后查找
确保目标字符前紧邻 "email":",且其后最多 100 个非空白、非双引号字符(即限制在当前 JSON 字符串值范围内,避免跨字段匹配)。{1,100} 可根据实际邮箱最大长度调整(如 {1,200} 更稳妥)。 - [a-zA-Z0-9]:精确匹配需掩码的单个字母或数字(跳过 .、%、@ 等分隔符)。
- (?=[^\s"@]*@):正向先行断言
要求该字符右侧直到 @ 符号之间,只允许出现非空白、非双引号、非 @ 的字符——确保匹配发生在邮箱本地部分(local-part),而非域名或引号外。
⚠️ 注意事项:
- 不依赖贪婪匹配或无限回溯:[^\s"]+ 和 [^\s"@]* 显式排除 JSON 结构符号,杜绝因 .* 导致的越界匹配(如误吞下一个字段的键名)。
- Java 字符串需双重转义:" 写为 ", 写为 \,故 [^\s"] 对应正则中的 [^\s"]。
- 不修改 HTML 标签或 data-cfemail 属性:该正则仅作用于 JSON 值中可见的邮箱文本(即 test.ing%...@gmail.com),对 <a> 标签内的 data-cfemail 等属性完全无影响,符合安全脱敏原则。
- 慎用于嵌套/多层 JSON:本方案适用于扁平化 JSON(单层 email 字段)。若需处理嵌套对象(如 "user":{"contact":{"email":"..."}}),建议先解析为对象再操作,或升级为支持递归的 JSONPath + 自定义处理器。
? 总结:在 JSON 字符串中掩码邮箱,核心是「字段锚定 + 值域隔离 + 语义限定」。相比简单全局替换,该正则兼顾准确性、健壮性与可维护性,是生产环境推荐的轻量级脱敏实践。










