SQL字符串处理需用对函数、避隐式转换、减运行时计算:优先CONCAT/COALESCE处理NULL,WHERE慎用函数防索引失效,用LIKE前缀匹配、生成列或函数索引优化,清洗用CASE+正则,注意字符集与排序规则一致性,并执行EXPLAIN验证。

SQL字符串处理不是简单拼接或截取,关键在于用对函数、避开隐式转换、减少运行时计算——这些直接影响查询性能和结果准确性。
用内置函数代替手工拼接
手动用 + 或 || 拼接字段容易出错,尤其遇到 NULL 时整段变 NULL;改用 CONCAT()(MySQL/PostgreSQL)或 COALESCE + +(SQL Server)更安全。
- MySQL:CONCAT(name, ' - ', COALESCE(dept, '未知')),自动跳过 NULL 不中断
- SQL Server:CONCAT(name, ' - ', dept) 同样兼容 NULL,比 ISNULL/COALESCE + + 更简洁
- 避免写 WHERE col1 + col2 = 'abc' —— 无法走索引,且可能因 NULL 失效
WHERE 条件中慎用字符串函数
在 WHERE 子句对字段套函数(如 UPPER(col), SUBSTR(col,1,3))会让索引失效,全表扫描风险高。
- 需要大小写不敏感匹配?建函数索引(Oracle/PostgreSQL)或使用支持的 COLLATE(MySQL:WHERE name COLLATE utf8mb4_0900_as_cs = 'Tom')
- 前缀匹配优先用 LIKE 'abc%'(可走索引),别用 SUBSTR(col,1,3)='abc'
- 确实要截取后过滤?把逻辑前置到应用层,或用生成列+索引(MySQL 5.7+ 支持 STORED GENERATED COLUMN)
批量清洗优先用 CASE WHEN + 正则(如支持)
单条 UPDATE 里嵌套多个 REPLACE() 易读性差、性能低;结构化清洗推荐用 CASE WHEN 控制分支,配合正则提升表达力。
- MySQL 8.0+ / PostgreSQL:WHERE phone REGEXP '^[0-9]{11}$' 替代多层 LENGTH + DIGITS 判断
- 统一格式化邮箱:CASE WHEN email LIKE '%@%.%' THEN LOWER(TRIM(email)) ELSE NULL END
- 避免在 SELECT 中对大字段反复调用 TRIM(UPPER(REPLACE(x,' ',''))) —— 考虑在入库时清洗或加计算列
注意字符集与排序规则影响结果
中文模糊匹配、去重、排序异常,常因 COLLATION 设置不当。比如 utf8mb4_unicode_ci 和 utf8mb4_bin 对 'a' 和 'A'、'ü' 和 'u' 的处理完全不同。
- 精确字节比较用 _bin 排序规则(WHERE name COLLATE utf8mb4_bin = '张三')
- 中文检索建议用 _unicode_ci 或专用全文索引(如 MySQL FULLTEXT、PostgreSQL tsvector)
- JOIN 字符串字段前确认两边 COLLATION 一致,否则隐式转换导致索引失效
基本上就这些。字符串处理不复杂但容易忽略执行计划和数据分布,写完记得 EXPLAIN 一下,看是否走了索引、有没有临时表或文件排序。










