substring和replace是sql中最常用的字符串处理函数:substring按起始位置和长度截取子串(各数据库均从1开始计数),replace则全局替换指定子串,二者常组合用于解析复合字段或数据清洗。

SQL 中的字符串处理函数 SUBSTRING 和 REPLACE 是日常数据清洗和字段提取最常用的两个函数,掌握它们能快速解决截取、替换类问题。
SUBSTRING:按位置提取子串
用于从字符串中指定起始位置和长度截取一段内容。不同数据库写法略有差异,但核心逻辑一致:
-
MySQL / PostgreSQL / SQL Server(新版):
SUBSTRING(str, start, length)或简写SUBSTR() -
SQL Server(传统):
SUBSTRING(str, start, length)(start 从 1 开始,不是 0) -
Oracle:
SUBSTR(str, start, length),同样从 1 开始计数
例如:从邮箱 'user@example.com' 中提取域名部分(@ 后直到结尾):
SELECT SUBSTRING(email, CHARINDEX('@', email) + 1, LEN(email)) AS domain FROM users;(SQL Server 写法;MySQL 用
LOCATE('@', email) + 1 和 LENGTH(email))REPLACE:全局替换指定子串
将字符串中所有匹配的旧子串替换成新子串,区分大小写(取决于数据库排序规则),不支持正则(除非使用扩展函数如 MySQL 的 REGEXP_REPLACE):
- 语法统一为:
REPLACE(original_str, old_substring, new_substring) - 若
old_substring不存在,原样返回;若为空字符串,多数数据库会报错或忽略 - 常用于清理空格、修正编码错误、标准化格式
例如:把地址字段中的全角空格( )和连续多个空格统一换成单个半角空格:
-- 分步替换(多数数据库不支持嵌套多层 REPLACE 简写,需嵌套调用)SELECT REPLACE(REPLACE(address, ' ', ' '), ' ', ' ') AS cleaned_addr FROM locations;组合使用:SUBSTRING + REPLACE 解决实际问题
单独用效果有限,组合起来才能应对复杂场景,比如解析带分隔符的复合字段:
- 字段值为
'ID:123|NAME:Tom|AGE:28',想提取 NAME 后的值 - 先用
REPLACE去掉前缀,再用SUBSTRING定位并截取 - 更稳健做法是结合
CHARINDEX/LOCATE找分隔符位置,动态计算起止点
示例(SQL Server)提取 NAME 值:
-- 找到 'NAME:' 起始位置,再找下一个 '|' 位置,中间即为目标内容SELECT SUBSTRING(data, CHARINDEX('NAME:', data) + 5, CHARINDEX('|', data, CHARINDEX('NAME:', data)) - CHARINDEX('NAME:', data) - 5) AS name_val FROM config_table;注意事项与避坑点
- 索引从 1 开始(不是编程语言常见的 0),越界不会报错,而是返回空或截断结果
-
REPLACE是全量替换,小心误改(如把'cat'替成'dog','category'会变成'dogegory') - 中文、emoji 等多字节字符在不同数据库中长度计算可能不同(建议用
LEN而非DATALENGTH判断字符数) - 性能敏感场景慎用多层嵌套,尤其在大表 WHERE 条件中使用这些函数会导致索引失效










