SQL 中 DISTINCT 的去重逻辑

舞夢輝影

发布时间：2026-01-25 17:43:20

113人浏览过

来源于php中文网

原创

SQL的DISTINCT按整行去重，非单列；NULL被视为相同值；ORDER BY字段须出现在SELECT中；无法指定保留哪行，替代方案为GROUP BY或窗口函数。

sql 中 distinct 的去重逻辑

SQL 的 DISTINCT 是按行去重，不是按列

很多人误以为 DISTINCT 是对某个字段单独去重，其实它作用于整个 SELECT 结果行。只要两行在所有被选中的列上完全一致，才会被合并为一行。

比如 SELECT DISTINCT name, age FROM users，不会只看 name 去重，而是看 (name, age) 这个组合是否重复。哪怕 name 相同但 age 不同，也会保留两条记录。

如果只想按 name 取唯一值，应写成 SELECT DISTINCT name FROM users
若还想要对应某条记录的 age（比如最新/最小），不能靠 DISTINCT 实现，得用 GROUP BY 或窗口函数
DISTINCT 会在执行末期触发排序或哈希去重，可能影响性能，尤其在大数据集 + 多列场景下

NULL 在 DISTINCT 中被视为相同值

SQL 标准规定：所有 NULL 在去重时被认为是相等的。也就是说，多行中若某列全为 NULL，它们会被当作重复行合并。

例如：SELECT DISTINCT status FROM orders，若表中有 5 行 status 是 NULL，结果里只会出现一个 NULL。

这和 WHERE status = NULL 不同（后者永远不成立），但 DISTINCT 对 NULL 的处理是确定且一致的
某些数据库（如 PostgreSQL）允许 DISTINCT ON (col) 语法，可控制保留哪一行，但标准 SQL 不支持
如果业务上需要区分“未填”和“明确为空”，建议用字符串标记（如 'UNKNOWN'）代替 NULL

DISTINCT 和 ORDER BY 的配合有隐含约束

当使用 ORDER BY 时，排序字段必须出现在 SELECT 列表中——前提是用了 DISTINCT。否则多数数据库（如 PostgreSQL、SQL Server）会报错；MySQL 8.0+ 也默认启用该检查。

Cardify卡片工坊

使用Markdown一键生成精美的小红书知识卡片

下载

错误示例：SELECT DISTINCT name FROM users ORDER BY created_at → 报错，因为 created_at 没出现在 SELECT 中。

修复方式：要么把 created_at 加进 SELECT（但会改变去重粒度），要么改用 GROUP BY name ORDER BY MAX(created_at)
这个限制的本质是：去重后原始行已不可追溯，ORDER BY 无法安全地基于未选中的列排序
MySQL 5.7 及更早版本允许这种写法（依赖 sql_mode 设置），但行为不可靠，不建议依赖

替代 DISTINCT 的常见场景与陷阱

真正想“取每组第一条”时，DISTINCT 往往不是正确工具。它不保证返回哪一条，也不支持指定优先级。

比如“每个部门取薪资最高的人”，写成 SELECT DISTINCT dept, MAX(salary) FROM emp GROUP BY dept 是对的；但若写成 SELECT DISTINCT dept, name, salary FROM emp ORDER BY salary DESC，结果既不确定，也无法保证 name 和 MAX(salary) 匹配。

需要关联完整行信息时，优先考虑 GROUP BY + 聚合函数，或 ROW_NUMBER() OVER (PARTITION BY ... ORDER BY ...)
DISTINCT 无法跳过某些列参与去重（比如忽略时间戳只按业务主键去重），此时必须用子查询或 CTE 预处理
在 JOIN 后使用 DISTINCT 容易掩盖笛卡尔积问题——先检查是否有多对多关联导致行数异常膨胀

实际用的时候，最常被忽略的是：DISTINCT 的语义边界完全由 SELECT 子句决定，它不理解业务主键，也不承诺稳定性。一旦涉及“取代表行”或“带条件去重”，就得换思路。

SQL如何获取每月的第一天和最后一天_LAST_DAY与日期运算

如何理解读写锁的互斥关系_共享锁S锁与排他锁X锁的兼容性

如何修改数据库数据存储目录_datadir迁移与权限修正

SQL报表日期范围查询慢_时间分区优化方案

如何排查SQL语句的解析时间过长_预编译PreparedStatement与缓存

相关标签:

mysql 大数据工具聚合函数 sql mysql NULL select 字符串 postgresql 数据库

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：SQL 窗口函数与聚合函数的根本差异下一篇：SQL 分表后查询为何变复杂？

作者最新文章

SQL并发更新冲突排查_行锁竞争与锁等待分析

2026-03-14 14:28

Nginx利用TCP代理实现Redis集群高可用转发

2026-03-14 14:31

Nginx针对视频资源开启TCP_nopush优化传输

2026-03-14 14:37

Docker仓库公有云集成与企业级镜像管理实践

2026-03-14 14:43

GitHub 命令行怎么用？GitHub CLI 基本操作说明

2026-03-14 14:47

MacOS系统df命令在多版本系统并存时卷组识别

2026-03-14 14:55

Windows运维中手动注册域控相关DNS记录的命令操作

2026-03-14 15:16

DockerDaemon日志滚动策略与磁盘溢出预防

2026-03-14 15:20

JavaScript中Boolean布尔值的逻辑判断与转换规则

2026-03-14 15:23

Java中Apache基础架构中请求处理链的模块化流转

2026-03-14 15:26

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍：1、Excel，具有强大的计算和数据处理功能；2、SQL，可以进行数据查询、过滤、排序、聚合等操作；3、Python，拥有丰富的数据分析库；4、R，拥有丰富的统计分析库和图形库；5、Tableau，提供了直观易用的用户界面等等。

1135

2023.10.12