SQL DISTINCT 与去重技巧解析

冷炫風刃

发布时间：2026-02-24 20:49:02

382人浏览过

来源于php中文网

原创

select distinct 对整行字段组合去重，null视为相同值，不保证顺序；group by 可结合聚合函数精准取值；row_number() 窗口函数最可靠，支持按组排序留指定记录。

sql distinct 与去重技巧解析

SELECT DISTINCT 是怎么去重的？

DISTINCT 不是“挑出某列不重复的值”，而是对 整个 SELECT 行的所有字段组合 做唯一性判断。比如 SELECT DISTINCT a, b FROM t，只有当 a 和 b 同时相等时，才算重复行。

NULL 被视为相同值：两行都是 (1, NULL)，会被去成一行
它不保证返回顺序：即使原表按 id 递增，DISTINCT 结果可能乱序，除非显式加 ORDER BY
不能只对部分列生效：想“按 user_id 去重，但保留最新一条的 created_at”，DISTINCT 办不到——它没排序控制能力
底层常触发排序或哈希去重，大数据量时容易内存溢出或变慢

GROUP BY 替代 DISTINCT 的真实用途

语法上 SELECT col FROM t GROUP BY col 和 SELECT DISTINCT col FROM t 效果一样，但 GROUP BY 才是“能干活”的那个。

必须把所有非聚合字段都写进 GROUP BY，否则多数数据库（如 PostgreSQL、SQL Server）直接报错；MySQL 在宽松模式下可能放行，但返回哪条记录不确定
真正价值在于结合聚合函数：比如 SELECT user_id, MAX(created_at) FROM events GROUP BY user_id，既能去重又能取最新时间
性能通常比 DISTINCT 更可控——尤其当你已有 user_id 索引时，GROUP BY 可走索引扫描，而 DISTINCT 可能被迫建临时哈希表

ROW_NUMBER() 实现精准去重（保留最新/最小 ID）

当你需要“每组只留一条，且明确指定留哪条”，就得用窗口函数。这是目前最可靠、语义最清晰的方案。

Peppertype.ai

高质量AI内容生成软件，它通过使用机器学习来理解用户的需求。

下载

核心是 ROW_NUMBER() OVER (PARTITION BY group_col ORDER BY sort_col)：先分组，再组内排序编号

示例：保留每个 department 中 id 最小的员工记录：

WITH ranked AS (
  SELECT *, ROW_NUMBER() OVER (PARTITION BY department ORDER BY id) AS rn
  FROM employees
)
SELECT * FROM ranked WHERE rn = 1;

注意 ORDER BY 方向：要最新记录就用 ORDER BY created_at DESC；要最早就用 ASC
不是所有环境都支持：SQLite 3.25+、MySQL 8.0+、PostgreSQL、Oracle、SQL Server 都行；老版本 MySQL 或某些 OLAP 引擎（如 Presto 0.215 之前）需换 ROW_NUMBER() 为 RANK() 或子查询模拟

别在 COUNT(DISTINCT ...) 上踩兼容性坑

COUNT(DISTINCT col) 看似简单，但实际部署时最容易翻车。

MySQL、PostgreSQL、SQL Server 支持；但旧版 Hive（near "DISTINCT": syntax error
替代写法统一可用：SELECT COUNT(*) FROM (SELECT DISTINCT col FROM t) AS _
多列去重计数（如 UV 统计）更危险：COUNT(DISTINCT user_id, platform) 在 MySQL 8.0+ 和 PostgreSQL 9.5+ 支持，但 Hive 只认单列，强行写会解析失败
大数据量时，COUNT(DISTINCT) 内部仍要哈希去重，内存峰值可能飙升——线上任务突然 OOM，十有八九是它

实际用的时候，别默认选 DISTINCT；先问自己一句：我到底是要“纯粹筛掉重复行”，还是要“每组挑一条”？前者勉强可用，后者必须上 ROW_NUMBER() 或 GROUP BY + 聚合。兼容性和可维护性，往往比写得短更重要。

相关标签:

sql mysql NULL count select Error sqlite oracle hive postgresql 数据库

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：SQL DISTINCT 去重优化实践下一篇：SQL wal_buffers 设置为 shared_buffers 1/32 的 WAL 写性能优化

作者最新文章

edge浏览器页面设置启动页、搜索引擎与新标签页配置

2026-02-24 14:58

历史关系图谱网站历史关系图谱小程序入口

2026-02-24 15:13

历史关系图谱小程序叫什么历史关系图谱小程序官网

2026-02-24 15:15

SQL JSON 数据类型操作与查询技巧

2026-02-24 15:24

Golang 网络编程问题：HTTP/TCP 连接超时、重试与错误处理

2026-02-24 15:28

Linux MinIO 的 erasure coding 与 S3 兼容性调优

2026-02-24 15:32

Golang Kubernetes 部署：微服务架构下的扩展与管理

2026-02-24 15:33

Golang 监控与日志：Prometheus 和 ELK 的应用集成

2026-02-24 15:33

Golang 标准库使用：net/http 和 context 的高级应用

2026-02-24 15:41

Golang 项目经验题：设计一个 RESTful API 的架构与代码

2026-02-24 15:41

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍：1、Excel，具有强大的计算和数据处理功能；2、SQL，可以进行数据查询、过滤、排序、聚合等操作；3、Python，拥有丰富的数据分析库；4、R，拥有丰富的统计分析库和图形库；5、Tableau，提供了直观易用的用户界面等等。

1027

2023.10.12