mysql执行计划中的Distinct操作如何去重_mysql去重算法解析

P粉602998670

发布时间：2026-03-04 10:33:10

324人浏览过

来源于php中文网

原创

explain显示using temporary + using filesort说明distinct强制创建临时表去重，且order by字段不匹配时额外排序；有索引可避免临时表，否则必走临时表。

mysql执行计划中的distinct操作如何去重_mysql去重算法解析

EXPLAIN 显示 Using temporary + Using filesort 就代表 DISTINCT 在走临时表

MySQL 对 DISTINCT 的去重不是靠哈希或排序后跳过重复，而是默认先建临时表（Using temporary），再对临时表去重。如果 ORDER BY 字段和 SELECT DISTINCT 字段不一致，还会多出 Using filesort —— 这说明它在临时表里又做了一次排序，性能损耗明显。

常见错误现象：EXPLAIN 看到 type=ALL 且 Extra 含 Using temporary; Using filesort，但 SQL 看起来只是简单去重，比如 SELECT DISTINCT user_id FROM log_table。

如果 user_id 有索引，MySQL 可能用索引扫描+去重合并，避免临时表；没索引就一定走临时表
DISTINCT 作用于多列时（如 SELECT DISTINCT a,b），等价于 GROUP BY a,b，优化器处理逻辑相同
5.7+ 版本对单列 DISTINCT 会尝试用松散索引扫描（Loose Index Scan）跳过重复值，但前提是该列是复合索引最左前缀且无 WHERE 条件干扰

用 GROUP BY 替代 DISTINCT 不一定能提速，要看是否带聚合函数

很多人以为把 DISTINCT 换成 GROUP BY 就能“控制”去重逻辑，其实两者执行计划几乎一样——优化器内部会把 DISTINCT 重写为 GROUP BY。真正影响性能的是有没有可用索引、是否需要回表、是否触发临时表。

使用场景：当你发现 DISTINCT 很慢，想手动干预时，可尝试加 GROUP BY 配合 MIN()/MAX() 提取某条代表记录，但这已超出纯去重范畴。

纯去重需求下，SELECT DISTINCT a FROM t 和 SELECT a FROM t GROUP BY a 生成的执行计划完全一致
如果加了 ORDER BY 且字段不在 DISTINCT 列中（如 SELECT DISTINCT a FROM t ORDER BY b），MySQL 必须先查全量再排序去重，无法利用索引加速
8.0.13+ 支持 GROUP BY 的 SKIP SCAN 优化，但仅限于某些复合索引结构，DISTINCT 不直接受益

覆盖索引能让 DISTINCT 避开回表，但不能绕过临时表

只要 SELECT DISTINCT 的所有字段都在同一个索引里（即覆盖索引），就能避免从聚簇索引回表读数据行，这是提升速度的关键一环。但它无法消除 Using temporary —— 去重本身仍需内存/磁盘临时结构来判断重复。

HaiSnap

一站式AI应用开发和部署工具

下载

参数差异：tmp_table_size 和 max_heap_table_size 共同决定临时表能否在内存中完成；超限就会落盘，性能断崖式下降。

例如 SELECT DISTINCT status FROM order_table，若 status 是独立索引或复合索引最左列，就能走索引扫描
但如果写成 SELECT DISTINCT status, created_at FROM order_table，而索引是 (status) 单列，就不覆盖；必须建 (status, created_at) 才能覆盖
注意：即使用了覆盖索引，EXPLAIN 仍可能显示 Using temporary，这不是误报，是去重动作本身所需

去重逻辑实际发生在存储引擎层之上，不是 SELECT 阶段才开始

MySQL 的去重不是在 Server 层逐行比对字符串，而是由执行器边读取边维护一个去重集合（内存哈希表或磁盘临时表）。这意味着：数据越早被过滤掉，去重开销越小；反过来，如果 WHERE 条件写得松散（比如用 LIKE '%abc'），导致大量无关行进入去重流程，效率就极低。

容易踩的坑：在 DISTINCT 查询里嵌套子查询或 JOIN，结果集膨胀后再去重，等于把压力全堆给临时表。

优先把过滤条件下沉到最内层，比如把 SELECT DISTINCT u.id FROM user u JOIN log l ON u.id=l.uid WHERE l.time > '2024-01-01' 改成先查 log 表符合条件的 uid，再关联 user
DISTINCT 对 NULL 值视为相同值去重，这点和 GROUP BY 一致，但和应用层去重逻辑可能不一致，要注意业务语义
如果去重字段类型是 TEXT 或长 VARCHAR，临时表会更占内存，甚至直接触发磁盘临时表，比字段短小的情况慢数倍

真正难调的不是语法怎么写，而是去重字段是否落在有效索引路径上、WHERE 是否足够收敛、以及临时表大小是否卡在内存临界点附近——这三个地方稍有偏差，执行时间就从毫秒跳到秒级。

mysql如何使用rpm包安装mysql_mysqlLinux安装方法

mysql如何创建索引_mysql索引创建与应用

mysql如何使用distinct去重_mysql数据去重操作

mysql函数与存储过程有什么区别_mysql功能对比

mysql如何设计好友关系表_mysql双向关系映射实践

相关标签:

mysql sql mysql NULL select 字符串堆 using 算法

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：mysql报错1054字段不存在怎么办_mysql字段错误排查下一篇：暂无

作者最新文章

猎豹浏览器怎么设置主页不被锁定_猎豹浏览器主页防护修改教程

2026-03-04 10:03

Win11怎么更改打印机默认设置_Windows11蓝牙和设备设置

2026-03-04 10:05

QQ浏览器怎么关闭视频自动播放_QQ浏览器流量保护功能教程

2026-03-04 10:05

什么是Java中的隐式转换与包装类缓冲_IntegerCache的范围与影响

2026-03-04 10:06

mysql如何增加字段_mysql alter table增加列

2026-03-04 10:07

mysql查询时如何使用查询缓存_mysql缓存查询流程

2026-03-04 10:08

什么是Java中的Optional类_优雅解决空指针异常的设计模式应用

2026-03-04 10:08

mysql如何选择适合的存储引擎_mysql应用场景解析

2026-03-04 10:10

CSS如何通过only-child选择唯一子元素_在孤立项上应用特定的css布局

2026-03-04 10:12

mysql如何使用UNION合并结果_mysql集合去重合并

2026-03-04 10:13

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍：1、Excel，具有强大的计算和数据处理功能；2、SQL，可以进行数据查询、过滤、排序、聚合等操作；3、Python，拥有丰富的数据分析库；4、R，拥有丰富的统计分析库和图形库；5、Tableau，提供了直观易用的用户界面等等。

1090

2023.10.12