SQL中如何优化千万级数据的GROUP BY性能_索引与执行计划分析

P粉602998670

发布时间：2026-03-19 11:44:31

630人浏览过

来源于php中文网

原创

GROUP BY性能差主因是执行计划出现Using temporary或Using filesort，表明MySQL被迫使用磁盘临时表或排序；应按WHERE→GROUP BY→SELECT顺序创建复合索引，并合理使用SQL_BIG_RESULT等优化提示，必要时物化中间结果。

sql中如何优化千万级数据的group by性能_索引与执行计划分析

GROUP BY慢，先看执行计划里有没有`Using filesort`或`Using temporary`

这两个提示是千万级表GROUP BY性能崩坏的典型信号——MySQL被迫把分组逻辑从内存搬进磁盘临时表，IO直接拉满。不是数据量大就一定慢，而是执行路径没走对。

实操建议：

用EXPLAIN FORMAT=TRADITIONAL跑一遍你的GROUP BY语句，重点盯Extra列
如果出现Using temporary，说明索引无法支撑分组顺序，MySQL必须建临时表；Using filesort则意味着排序也失控了
注意：即使WHERE条件命中了索引，GROUP BY字段没被覆盖，照样会触发临时表

复合索引要按`WHERE` → `GROUP BY` → `SELECT`字段顺序建

索引不是随便把字段堆进去就行。MySQL的B+树索引只有在“最左前缀匹配”且能按顺序输出分组键时，才能避免临时表。

实操建议：

假设语句是SELECT user_id, COUNT(*) FROM orders WHERE status = 1 GROUP BY created_date，理想索引是INDEX(status, created_date)（status在前，因为是过滤条件；created_date紧随其后，让分组能直接利用索引顺序）
如果还要SELECT非分组字段（比如MAX(amount)），且不想回表，可加到索引末尾：INDEX(status, created_date, amount)
别把GROUP BY字段放索引最前面——除非没有WHERE条件；否则status等过滤字段缺失，索引利用率暴跌

`SQL_BIG_RESULT`提示可能比你想象中更实用

当MySQL预估分组结果集很大（比如上百万行），它默认倾向用磁盘临时表；但有时内存够、只是预估不准，加个提示就能切回内存模式。

WisPaper

复旦大学研发的AI学术搜索工具，5分钟内筛选1000篇论文

下载

实操建议：

在SELECT前加SQL_BIG_RESULT提示：SELECT SQL_BIG_RESULT user_id, COUNT(*) FROM orders GROUP BY user_id
这个提示告诉优化器：“结果集大，但请优先用内存哈希表”，适合分组键基数高但内存充足的情况
反向提示SQL_SMALL_RESULT适用于结果行数极少（如GROUP BY status只有3–5个值），强制走排序而非哈希
注意：提示不解决索引缺失问题，只调优执行策略；先确保索引合理，再考虑提示

千万级分组别硬刚，考虑物化中间结果

有些场景，比如实时报表要频繁查GROUP BY day, city，每次扫全表根本扛不住。这时候索引和提示都只是止痛药，得换思路。

实操建议：

用CREATE TABLE ... SELECT把高频分组结果存成汇总表，每天/每小时用INSERT ... ON DUPLICATE KEY UPDATE增量更新
汇总表主键设为分组字段组合（如PRIMARY KEY(day, city)），查询直接走主键，毫秒级
如果业务允许几秒延迟，也可以用MATERIALIZED VIEW（PostgreSQL）或物化视图替代方案（MySQL需手动维护）
警惕陷阱：不要用VIEW包装GROUP BY——它只是语法糖，每次查仍全表扫描

真正卡住的往往不是语法怎么写，而是没想清楚：这个分组结果是不是真的需要每次都重算？索引能省掉IO，但绕不开计算量；而物化，是把计算成本平摊到写入端。

数码产品性能查询

该软件包括了市面上所有手机CPU，手机跑分情况，电脑CPU，电脑产品信息等等，方便需要大家查阅数码产品最新情况，了解产品特性，能够进行对比选择最具性价比的商品。

下载

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何理解页级锁的概念_BDB引擎与表锁行锁的折中方案下一篇：SQL如何统计分组内的占比分布_总计与分组求和比例计算

作者最新文章

mysql如何通过权限实现数据分片存储_MySQL分片用户管理

2026-03-19 11:09

如何防止用户直接修改字典_O7_DICTIONARY_ACCESSIBILITY参数

2026-03-19 11:10

怎样在Java中搭建MongoDB开发环境_Java非关系型数据库

2026-03-19 11:11

如何优雅地停用SQL触发器_使用存储过程批量管理触发状态

2026-03-19 11:11

如何优化SQL海量数据JOIN查询_执行计划分析与连接顺序调整

2026-03-19 11:11

如何安装Oracle Instant Client_轻量级客户端免安装配置

2026-03-19 11:12

SQL实现基于用户权限的JOIN查询限制_安全视图与连接过滤

2026-03-19 11:12

Redis如何开启声明式缓存功能

2026-03-19 11:12

Python怎么降级版本_退回旧版本Python解释器实操指南

2026-03-19 11:14

火狐浏览器自建同步服务器怎么配_火狐浏览器数据隐私本地化教程

2026-03-19 11:14

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

大数据分析工具有哪四个

大数据分析的四个工具分别是rapidminer、Hpcc、Hadoop和Pentaho bi。大数据分析用于从各种来源生成的原始数据中提取有价值的数据。这些数据帮助我们获得有意义的见解、隐藏的模式、未知的相关性、市场趋势等等，具体取决于行业。大数据分析的主要动机是提供有价值的见解，以便为未来做出更好的决策。php中文网为大家带来了大数据分析的相关教程、以及相关文章等内容，供大家免费下载使用。

166

2023.06.21

Java 大数据处理基础（Hadoop 方向）

本专题聚焦 Java 在大数据离线处理场景中的核心应用，系统讲解 Hadoop 生态的基本原理、HDFS 文件系统操作、MapReduce 编程模型、作业优化策略以及常见数据处理流程。通过实际示例（如日志分析、批处理任务），帮助学习者掌握使用 Java 构建高效大数据处理程序的完整方法。

786

2025.12.08

大数据专业学习教程

本专题整合了大数据专业学习相关教程，阅读专题下面的文章了解更多详细内容。

2026.01.05

python处理大数据合集

本专题整合了python处理大数据相关教程，阅读专题下面的文章了解更多详细内容。

112

2026.01.05

数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍：1、Excel，具有强大的计算和数据处理功能；2、SQL，可以进行数据查询、过滤、排序、聚合等操作；3、Python，拥有丰富的数据分析库；4、R，拥有丰富的统计分析库和图形库；5、Tableau，提供了直观易用的用户界面等等。

1135

2023.10.12