mysql如何使用distinct去重_mysql数据去重操作

P粉602998670

发布时间：2026-03-04 09:19:02

952人浏览过

来源于php中文网

原创

distinct是select的修饰关键字，仅对查询结果整行去重，不能用于where或order by；它将select字段组合成元组判重，null被视为相同值；性能取决于索引与数据分布，执行计划需重点检查using temporary；它不修改原表，删重需用delete配合join或row_number()。

mysql如何使用distinct去重_mysql数据去重操作

distinct 只能作用于 select 列表，不能用于 where 或 order by

很多人误以为 DISTINCT 是个独立操作符，可以像函数一样套在任意字段上，比如写成 WHERE DISTINCT user_id = 1——这会直接报错：ERROR 1064 (42000)。它本质是 SELECT 的修饰关键字，只对查询结果的整行去重生效。

实际去重逻辑是：MySQL 把 SELECT 后列出的所有字段拼成一个“元组”，再对这些元组做唯一性判别。所以 SELECT DISTINCT a, b 和 SELECT DISTINCT a 去重粒度完全不同。

SELECT DISTINCT id FROM users：只看 id 值是否重复
SELECT DISTINCT id, name FROM users：只有 id 和 name 都完全相同时才视为重复
加了 ORDER BY 时，排序字段必须出现在 SELECT 列表中（除非启用了 ONLY_FULL_GROUP_BY 以外的 SQL 模式）

distinct 无法过滤 NULL，多个 NULL 被视为相同值

这是最容易被忽略的行为：MySQL 把所有 NULL 当作相等值处理。如果某列有 5 行是 NULL，SELECT DISTINCT col FROM t 最多只返回一个 NULL。

如果你需要保留全部非空值 + 显式标记“有 NULL 存在”，不能只靠 DISTINCT。常见应对方式：

用 COALESCE(col, 'N/A') 替换 NULL 再去重（注意类型一致性）
先查非空值：SELECT DISTINCT col FROM t WHERE col IS NOT NULL，再单独查 SELECT 1 FROM t WHERE col IS NULL LIMIT 1 判断是否存在
若需统计去重后数量且包含 NULL 计数，改用 COUNT(DISTINCT col) + (CASE WHEN COUNT(*) > COUNT(col) THEN 1 ELSE 0 END)

distinct 性能差？别急着优化，先看执行计划

DISTINCT 在底层通常触发临时表（Using temporary）和文件排序（Using filesort），但是否真慢，得看数据分布和索引。

ChatGPT Writer

免费 Chrome 扩展程序，使用 ChatGPT AI 生成电子邮件和消息。

下载

例如：SELECT DISTINCT status FROM orders，如果 status 是低基数字段（如只有 'pending'/'done'/'cancel'），即使千万级表，MySQL 也可能用松散索引扫描（Loose Index Scan）快速完成；但如果查的是 SELECT DISTINCT email FROM users，又没索引，那就必然走全表 + 临时表。

检查执行计划：EXPLAIN SELECT DISTINCT ...，重点看 Extra 列是否含 Using temporary
给高频去重字段建单列索引，能显著减少临时表使用（尤其当该字段在 WHERE 中也常用时）
避免在 DISTINCT 后混用函数或表达式，如 SELECT DISTINCT UPPER(name) 会强制计算+排序，无法利用 name 索引

真正要删重复数据？distinct 不是 delete 工具

DISTINCT 只影响查询结果，不会修改原表。想物理删除重复行，得用其他方法。

最稳妥的通用做法是借助主键或唯一标识：

假设表有自增主键 id，按业务字段（如 email）去重并保留最小 id：

DELETE t1 FROM users t1
INNER JOIN users t2 
WHERE t1.email = t2.email AND t1.id > t2.id;

无主键时，可用 ROW_NUMBER()（MySQL 8.0+）：

DELETE FROM users 
WHERE id IN (
  SELECT id FROM (
    SELECT id, ROW_NUMBER() OVER (PARTITION BY email ORDER BY id) rn 
    FROM users
  ) t WHERE rn > 1
);

切勿直接 CREATE TABLE AS SELECT DISTINCT ... 后替换原表——会丢失索引、外键、权限、AUTO_INCREMENT 值等元信息

去重逻辑越复杂，越容易漏掉边界情况：比如时间精度不同导致看似相同的记录实际不重复，或者字符集/排序规则差异让两个字符串被判定为不同。动手前务必在测试库验证语义是否符合预期。

mysql执行SQL时加锁是在什么阶段_mysql锁机制详解

mysql如何管理存储过程的执行权限_mysql define权限设置

mysql如何在高并发环境下备份_mysql高效备份方案

mysql迁移过程中如何保证性能不下降_mysql性能调优建议

mysql执行SQL时如何利用explain分析_mysqlSQL执行分析技巧

相关标签:

mysql sql mysql NULL count select Error 字符串 using delete table

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：mysql函数与存储过程有什么区别_mysql功能对比下一篇：暂无

作者最新文章

剪映怎么变速_剪映曲线变速设置

2026-03-03 17:29

如何提升简历文案的职场成熟度利用DeepSeek通过结构化叙事消除青涩感

2026-03-03 17:29

如何提升简历文案的逻辑一致性利用DeepSeek进行全篇结构化核查

2026-03-03 17:31

Win11怎么关闭系统的反馈提醒_Windows11隐私诊断反馈设置

2026-03-03 17:33

如何制作一套高颜值的PPT模板利用Gamma一键定制专属色彩体系

2026-03-03 17:33

淘宝闪购怎么开启免密支付_淘宝闪购小额免密设置

2026-03-03 17:34

QQ音乐怎么分享到微信_QQ音乐朋友圈分享

2026-03-03 17:34

如何提升代码的安全性和防攻击能力利用DeepSeek进行静态安全扫描

2026-03-03 17:37

网易云音乐怎么关闭自动续费_网易云音乐黑胶VIP取消

2026-03-03 17:39

Win11怎么设置应用通知关闭_Windows11通知和操作设置

2026-03-03 17:39

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍：1、Excel，具有强大的计算和数据处理功能；2、SQL，可以进行数据查询、过滤、排序、聚合等操作；3、Python，拥有丰富的数据分析库；4、R，拥有丰富的统计分析库和图形库；5、Tableau，提供了直观易用的用户界面等等。

1090

2023.10.12