0

0

SQL 中 DISTINCT 的去重逻辑

舞夢輝影

舞夢輝影

发布时间:2026-01-25 17:43:20

|

113人浏览过

|

来源于php中文网

原创

SQL的DISTINCT按整行去重,非单列;NULL被视为相同值;ORDER BY字段须出现在SELECT中;无法指定保留哪行,替代方案为GROUP BY或窗口函数。

sql 中 distinct 的去重逻辑

SQL 的 DISTINCT 是按行去重,不是按列

很多人误以为 DISTINCT 是对某个字段单独去重,其实它作用于整个 SELECT 结果行。只要两行在所有被选中的列上完全一致,才会被合并为一行。

比如 SELECT DISTINCT name, age FROM users,不会只看 name 去重,而是看 (name, age) 这个组合是否重复。哪怕 name 相同但 age 不同,也会保留两条记录。

  • 如果只想按 name 取唯一值,应写成 SELECT DISTINCT name FROM users
  • 若还想要对应某条记录的 age(比如最新/最小),不能靠 DISTINCT 实现,得用 GROUP BY 或窗口函数
  • DISTINCT 会在执行末期触发排序或哈希去重,可能影响性能,尤其在大数据集 + 多列场景下

NULL 在 DISTINCT 中被视为相同值

SQL 标准规定:所有 NULL 在去重时被认为是相等的。也就是说,多行中若某列全为 NULL,它们会被当作重复行合并。

例如:SELECT DISTINCT status FROM orders,若表中有 5 行 statusNULL,结果里只会出现一个 NULL

  • 这和 WHERE status = NULL 不同(后者永远不成立),但 DISTINCTNULL 的处理是确定且一致的
  • 某些数据库(如 PostgreSQL)允许 DISTINCT ON (col) 语法,可控制保留哪一行,但标准 SQL 不支持
  • 如果业务上需要区分“未填”和“明确为空”,建议用字符串标记(如 'UNKNOWN')代替 NULL

DISTINCT 和 ORDER BY 的配合有隐含约束

当使用 ORDER BY 时,排序字段必须出现在 SELECT 列表中——前提是用了 DISTINCT。否则多数数据库(如 PostgreSQL、SQL Server)会报错;MySQL 8.0+ 也默认启用该检查。

Miniflow
Miniflow

AI工作流自动化平台

下载

错误示例:SELECT DISTINCT name FROM users ORDER BY created_at → 报错,因为 created_at 没出现在 SELECT 中。

  • 修复方式:要么把 created_at 加进 SELECT(但会改变去重粒度),要么改用 GROUP BY name ORDER BY MAX(created_at)
  • 这个限制的本质是:去重后原始行已不可追溯,ORDER BY 无法安全地基于未选中的列排序
  • MySQL 5.7 及更早版本允许这种写法(依赖 sql_mode 设置),但行为不可靠,不建议依赖

替代 DISTINCT 的常见场景与陷阱

真正想“取每组第一条”时,DISTINCT 往往不是正确工具。它不保证返回哪一条,也不支持指定优先级。

比如“每个部门取薪资最高的人”,写成 SELECT DISTINCT dept, MAX(salary) FROM emp GROUP BY dept 是对的;但若写成 SELECT DISTINCT dept, name, salary FROM emp ORDER BY salary DESC,结果既不确定,也无法保证 nameMAX(salary) 匹配。

  • 需要关联完整行信息时,优先考虑 GROUP BY + 聚合函数,或 ROW_NUMBER() OVER (PARTITION BY ... ORDER BY ...)
  • DISTINCT 无法跳过某些列参与去重(比如忽略时间戳只按业务主键去重),此时必须用子查询或 CTE 预处理
  • 在 JOIN 后使用 DISTINCT 容易掩盖笛卡尔积问题——先检查是否有多对多关联导致行数异常膨胀
实际用的时候,最常被忽略的是:DISTINCT 的语义边界完全由 SELECT 子句决定,它不理解业务主键,也不承诺稳定性。一旦涉及“取代表行”或“带条件去重”,就得换思路。

相关专题

更多
数据分析工具有哪些
数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍:1、Excel,具有强大的计算和数据处理功能;2、SQL,可以进行数据查询、过滤、排序、聚合等操作;3、Python,拥有丰富的数据分析库;4、R,拥有丰富的统计分析库和图形库;5、Tableau,提供了直观易用的用户界面等等。

686

2023.10.12

SQL中distinct的用法
SQL中distinct的用法

SQL中distinct的语法是“SELECT DISTINCT column1, column2,...,FROM table_name;”。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

325

2023.10.27

SQL中months_between使用方法
SQL中months_between使用方法

在SQL中,MONTHS_BETWEEN 是一个常见的函数,用于计算两个日期之间的月份差。想了解更多SQL的相关内容,可以阅读本专题下面的文章。

348

2024.02.23

SQL出现5120错误解决方法
SQL出现5120错误解决方法

SQL Server错误5120是由于没有足够的权限来访问或操作指定的数据库或文件引起的。想了解更多sql错误的相关内容,可以阅读本专题下面的文章。

1159

2024.03.06

sql procedure语法错误解决方法
sql procedure语法错误解决方法

sql procedure语法错误解决办法:1、仔细检查错误消息;2、检查语法规则;3、检查括号和引号;4、检查变量和参数;5、检查关键字和函数;6、逐步调试;7、参考文档和示例。想了解更多语法错误的相关内容,可以阅读本专题下面的文章。

359

2024.03.06

oracle数据库运行sql方法
oracle数据库运行sql方法

运行sql步骤包括:打开sql plus工具并连接到数据库。在提示符下输入sql语句。按enter键运行该语句。查看结果,错误消息或退出sql plus。想了解更多oracle数据库的相关内容,可以阅读本专题下面的文章。

758

2024.04.07

sql中where的含义
sql中where的含义

sql中where子句用于从表中过滤数据,它基于指定条件选择特定的行。想了解更多where的相关内容,可以阅读本专题下面的文章。

577

2024.04.29

sql中删除表的语句是什么
sql中删除表的语句是什么

sql中用于删除表的语句是drop table。语法为drop table table_name;该语句将永久删除指定表的表和数据。想了解更多sql的相关内容,可以阅读本专题下面的文章。

420

2024.04.29

c++ 根号
c++ 根号

本专题整合了c++根号相关教程,阅读专题下面的文章了解更多详细内容。

58

2026.01.23

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
MySQL 教程
MySQL 教程

共48课时 | 1.9万人学习

MySQL 初学入门(mosh老师)
MySQL 初学入门(mosh老师)

共3课时 | 0.3万人学习

简单聊聊mysql8与网络通信
简单聊聊mysql8与网络通信

共1课时 | 810人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号