0

0

SQL REGEXP_REPLACE 与数据清洗实践

舞夢輝影

舞夢輝影

发布时间:2026-02-22 21:28:03

|

856人浏览过

|

来源于php中文网

原创

mysql 8.0.4+ 才原生支持 regexp_replace,必须确保三参数 str、pattern、replacement 齐全,中文需统一字符集,手机号脱敏推荐用边界锚定正则,换行符处理需显式指定 match_type='c' 并用 [ ]+。

sql regexp_replace 与数据清洗实践

REGEXP_REPLACE 在 MySQL 8.0+ 中怎么写才不报错

MySQL 的 REGEXP_REPLACE 是个“娇气”的函数——版本不对、模式写错、参数顺序乱,立刻返回 NULL 或直接报错 ERROR 1305 (42000): FUNCTION xxx.REGEXP_REPLACE does not exist

它只在 MySQL 8.0.4+ 原生支持;低版本必须用 REPLACE 嵌套或自定义函数替代。确认版本后,注意三个参数缺一不可:REGEXP_REPLACE(str, pattern, replacement[, position[, occurrence[, match_type]]),其中后三个是可选,但漏掉前三个就一定挂。

  • 常见错误:把 replacement 写成正则捕获组语法但没加 $1 引用,结果原样输出(不是报错,更难排查)
  • 匹配中文或 Unicode 字符时,strpattern 字符集必须一致,否则空匹配或乱码;建议显式用 COLLATE utf8mb4_0900_as_cs
  • match_type 值为 'c'(大小写敏感)或 'i'(忽略),不传默认是 'c',别想当然认为像 Python 默认忽略

替换手机号中间四位为星号的正确写法

这是最常被搜的问题,但很多人写的正则要么太宽泛(误伤身份证、订单号),要么太死板(只匹配 11 位、忽略 199/166 等新号段)。

真正稳妥的做法是锚定边界 + 明确号段范围 + 保留原始空格/括号格式:

SELECT REGEXP_REPLACE(
  phone,
  '(^|[^0-9])(1[3-9][0-9]{9})([^0-9]|$)',
  '\1****\3'
) AS masked_phone
FROM users;

说明: 是反向引用,确保前后非数字字符(如空格、括号)不丢失;1[3-9][0-9]{9} 覆盖所有国内主流 11 位手机号,比 ^1[3-9]d{9}$ 更适应脏数据场景。

阿里云AI平台
阿里云AI平台

阿里云AI平台

下载
  • 别用 ^1[3-9]\d{9}$ 直接全量替换——字段里带空格或短横线就完全不匹配
  • 如果要批量更新,先用 WHERE phone REGEXP '1[3-9][0-9]{9}' 过滤,避免对 NULL 或非手机号字段执行无意义替换
  • 性能提示:该函数无法使用索引,大数据量慎用于 WHERE 条件中

为什么 REGEXP_REPLACE 处理换行符总是失效

因为 MySQL 默认的正则引擎(ICU)把 \n 当作字面量,而不是换行控制符;[ ] 也常不生效——根本原因是匹配模式默认不开启多行模式(match_type 不含 'm')。

想真正删掉字段里的回车、换行、制表符,得组合使用:

SELECT REGEXP_REPLACE(
  content,
  '[
	]+',
  ' ',
  1,
  0,
  'c'
) AS cleaned FROM logs;
  • [ ]+\s+ 更安全,后者在 MySQL 中可能匹配到全角空格等意外字符
  • 第四个参数 position 设为 1 表示从开头找;第五个 occurrence0 表示全局替换(不是只换第一个)
  • 如果字段含大量 CRLF(Windows 风格),单独加一条 REGEXP_REPLACE(..., ' ', ' ') 预处理更稳

PostgreSQL 和 MySQL 的 REGEXP_REPLACE 差异在哪

名字一样,行为差很多:PostgreSQL 的 regexp_replace() 默认贪婪、支持 g 标志控制全局,而 MySQL 没有标志位,靠 occurrence=0 实现;PG 支持反向引用 \1,MySQL 用 $1 ——混用必出错。

迁移 SQL 时最容易栽在这儿:

  • MySQL 中 REGEXP_REPLACE('a-b-c', '-', '$1', 1, 0) → 错!$1 没有捕获组,结果是字面量 $1
  • PostgreSQL 中 regexp_replace('a-b-c', '([a-z])-([a-z])', '\1\2', 'g') → 正确;MySQL 必须写成 REGEXP_REPLACE('a-b-c', '([a-z])-([a-z])', '\1\2'),且不能加 'g'
  • MySQL 不支持 POSIX 字符类如 [:digit:],得用 [0-9];PG 两者都认

跨数据库写清洗逻辑时,别图省事复用同一段正则表达式——哪怕看起来一样,也可能在某个引擎里静默失败。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
数据分析工具有哪些
数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍:1、Excel,具有强大的计算和数据处理功能;2、SQL,可以进行数据查询、过滤、排序、聚合等操作;3、Python,拥有丰富的数据分析库;4、R,拥有丰富的统计分析库和图形库;5、Tableau,提供了直观易用的用户界面等等。

1026

2023.10.12

SQL中distinct的用法
SQL中distinct的用法

SQL中distinct的语法是“SELECT DISTINCT column1, column2,...,FROM table_name;”。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

335

2023.10.27

SQL中months_between使用方法
SQL中months_between使用方法

在SQL中,MONTHS_BETWEEN 是一个常见的函数,用于计算两个日期之间的月份差。想了解更多SQL的相关内容,可以阅读本专题下面的文章。

379

2024.02.23

SQL出现5120错误解决方法
SQL出现5120错误解决方法

SQL Server错误5120是由于没有足够的权限来访问或操作指定的数据库或文件引起的。想了解更多sql错误的相关内容,可以阅读本专题下面的文章。

1802

2024.03.06

sql procedure语法错误解决方法
sql procedure语法错误解决方法

sql procedure语法错误解决办法:1、仔细检查错误消息;2、检查语法规则;3、检查括号和引号;4、检查变量和参数;5、检查关键字和函数;6、逐步调试;7、参考文档和示例。想了解更多语法错误的相关内容,可以阅读本专题下面的文章。

377

2024.03.06

oracle数据库运行sql方法
oracle数据库运行sql方法

运行sql步骤包括:打开sql plus工具并连接到数据库。在提示符下输入sql语句。按enter键运行该语句。查看结果,错误消息或退出sql plus。想了解更多oracle数据库的相关内容,可以阅读本专题下面的文章。

1354

2024.04.07

sql中where的含义
sql中where的含义

sql中where子句用于从表中过滤数据,它基于指定条件选择特定的行。想了解更多where的相关内容,可以阅读本专题下面的文章。

585

2024.04.29

sql中删除表的语句是什么
sql中删除表的语句是什么

sql中用于删除表的语句是drop table。语法为drop table table_name;该语句将永久删除指定表的表和数据。想了解更多sql的相关内容,可以阅读本专题下面的文章。

437

2024.04.29

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

1030

2026.02.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 9.5万人学习

Django 教程
Django 教程

共28课时 | 4.5万人学习

Excel 教程
Excel 教程

共162课时 | 18.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号