SQL字符串处理重在理解数据结构与业务逻辑:先清洗(如去空格)、再识别分隔符规律、最后安全截取或聚合,关键在预判异常、统一格式、分步验证。

SQL字符串处理不是背函数,而是理解数据怎么“长”、查询怎么“切”、结果怎么“拼”。真正卡住人的,往往不是CONCAT或SUBSTRING不会写,而是没想清楚:原始字段里藏着什么结构?空格/分隔符是规律的还是混乱的?要不要先清洗再拆?下面用三个真实业务场景,带你看清逻辑链,不堆语法,只练思维。
从“张三-北京-2023”反向还原用户归属地
某CRM系统把姓名、城市、年份硬编码在一个字段里,用短横线连接,但部分数据有空格(如“李四 - 上海 - 2024”),还有极个别缺城市(“王五-2022”)。直接SUBSTRING_INDEX会出错。
关键思路:先统一格式,再安全截取。
- 用
REPLACE(col, ' ', '')干掉所有空格,让分隔符位置稳定 - 用
LENGTH和REPLACE算短横线个数:LENGTH(col) - LENGTH(REPLACE(col, '-', '')),判断是否三段 - 对两段数据(缺城市),用
CASE WHEN兜底返回'未知',避免SUBSTRING_INDEX(col, '-', 2)取到年份
提取邮箱域名并统计活跃度分布
用户表有个email字段,要快速看出腾讯系(@qq.com/@foxmail.com)、阿里系(@163.com/@aliyun.com)占比。但有人填了user@subdomain.163.com,也有人漏了@符号(如“user163.com”)。
关键思路:别硬匹配后缀,先定位@,再抓“@之后、第一个点之前”的主域名。
- 用
LOCATE('@', email)找@位置;为防无@数据,加WHERE email LIKE '%@%'预过滤 - 用
SUBSTRING(email, LOCATE('@', email) + 1)拿到@后全部内容 - 再用
SUBSTRING_INDEX(..., '.', 1)取第一个点前的部分——这样subdomain.163.com也能正确归为163 - 最后
CASE WHEN domain IN ('qq','foxmail') THEN '腾讯系'...分组统计
合并多行标签为单字段,去重且按频次排序
订单表关联标签表,一个订单可能有多个标签(如订单1001 → ['物流慢','客服差','退款慢']),现在要查TOP10高频组合,格式为“物流慢|客服差|退款慢”,且同一订单内重复标签要去掉。
关键思路:聚合前先去重,排序逻辑必须在聚合内完成,不能靠外层ORDER BY。
- 用
GROUP_CONCAT(DISTINCT tag ORDER BY tag SEPARATOR '|')——DISTINCT去同订单内重,ORDER BY tag保证每次生成相同字符串(方便后续计数) - 外层再
GROUP BY这个合并字段,COUNT(*)统计出现次数 - 注意:MySQL默认
GROUP_CONCAT长度限制1024,超长会截断,需临时设SET SESSION group_concat_max_len = 10000
字符串处理的本质,是把非结构化信息变成可分组、可比较、可索引的结构。写SQL时多问一句:“这个字段,人眼是怎么读的?机器该怎么信?”——答案就藏在空格、分隔符、异常值和业务规则里。基本上就这些。










