MySQL排序规则决定字符比较、排序等行为,与字符集绑定,影响ORDER BY等操作;如utf8mb4_general_ci不区分大小写和重音,utf8mb4_bin则严格区分。

MySQL中的排序规则(Collation)不是指ORDER BY语法的写法,而是决定字符如何比较、排序、大小写是否敏感、重音是否忽略等行为的一套规则。它和字符集(Character Set)绑定,直接影响ORDER BY、GROUP BY、=、LIKE等操作中字符串的处理逻辑。
排序规则决定字符串怎么比大小
比如字段值为 'apple'、'Apple'、'ápple',在不同排序规则下排序结果可能完全不同:
-
utf8mb4_general_ci:不区分大小写('Apple'='apple'),也忽略重音('ápple'≈'apple') -
utf8mb4_bin:按二进制字节逐位比较,严格区分大小写和重音,'Apple''apple'(因ASCII中大写A=65,小写a=97) -
utf8mb4_0900_as_cs(MySQL 8.0+):区分大小写(case-sensitive)、不忽略重音(accent-sensitive),更符合现代Unicode标准
排序规则影响ORDER BY的实际行为
即使写了ORDER BY name ASC,最终谁排前面、谁排后面,由该列的排序规则决定:
- 若
name字段用的是utf8mb4_unicode_ci,则'z'会排在'Z'之后,但'Z'和'z'会被视为等价,排序时可能相邻出现 - 若字段是
utf8mb4_bin,则所有字符严格按编码值排序,'A'~'Z'(65–90)一定排在'a'~'z'(97–122)之前 - 中文排序也受此影响:默认
utf8mb4_general_ci对汉字按拼音首字母粗略分组,但不保证完整拼音序;真正按拼音排序需借助CONVERT(name USING gbk)或自定义函数
空值与空字符串在排序中的位置
对于非数字类型(如VARCHAR),MySQL把空字符串''当作最小值处理:
- 升序(ASC)时,
''总排最前;降序(DESC)时,总排最后 - 多个
''之间无确定顺序,按存储物理顺序返回(即插入先后) -
NULL比''更小——在ASC排序中,NULL永远在''之前;DESC中则永远在最后
排序过程背后的执行机制
当无法利用索引避免排序时,MySQL会启动内部排序流程:
- 先分配
sort_buffer_size内存空间,尝试将待排序行的排序字段+主键(或整行)载入内存 - 若数据量小,直接在内存中快速排序;若超限,则生成多个临时排序文件,再归并(merge sort)
- 执行计划中出现
Using filesort,说明触发了该机制——这不是错误,而是提示“这里需要额外排序” - 可通过添加合适组合索引(如
INDEX(status, amount DESC))让B+树天然有序,跳过filesort










