0

0

mysql如何进行聚合查询

P粉602998670

P粉602998670

发布时间:2025-09-21 10:55:01

|

399人浏览过

|

来源于php中文网

原创

答案:聚合查询通过聚合函数和group by对数据分组汇总,having过滤分组结果,需注意null值处理及索引优化以提升性能。

mysql如何进行聚合查询

MySQL聚合查询,简而言之,就是对一组数据进行汇总计算,比如统计数量、求和、平均值、最大值或最小值。它不是简单地返回每一行数据,而是将多行数据“压缩”成一行或几行摘要信息,这在数据分析和报表生成中简直是不可或缺的工具。可以说,没有聚合查询,我们对数据的洞察力会大打折扣。

解决方案

要进行聚合查询,核心在于使用SQL的聚合函数(如

COUNT()
,
SUM()
,
AVG()
,
MIN()
,
MAX()
)配合
GROUP BY
子句。
GROUP BY
的作用是将具有相同值的行分组,然后对每个组应用聚合函数。如果不需要分组,聚合函数会作用于整个结果集。

我们来看一个常见的场景:假设有一个订单表

orders
,里面有
order_id
,
customer_id
,
amount
,
order_date
等字段。

-- 示例表结构
CREATE TABLE orders (
    order_id INT PRIMARY KEY AUTO_INCREMENT,
    customer_id INT,
    amount DECIMAL(10, 2),
    order_date DATE
);

-- 示例数据
INSERT INTO orders (customer_id, amount, order_date) VALUES
(101, 100.50, '2023-01-05'),
(102, 250.00, '2023-01-05'),
(101, 75.20, '2023-01-06'),
(103, 300.00, '2023-01-07'),
(102, 120.80, '2023-01-07'),
(101, 150.00, '2023-01-08'),
(103, 50.00, '2023-01-08');

现在,如果我想知道每个客户的总消费金额和订单数量,我会这么写:

SELECT
    customer_id,
    SUM(amount) AS total_spent,
    COUNT(order_id) AS total_orders
FROM
    orders
GROUP BY
    customer_id;

这条SQL语句会根据

customer_id
将订单分组,然后对每个组内的
amount
求和,并统计
order_id
的数量。结果会是每个客户ID对应一行,显示其总消费和总订单数。

如果我只想看总消费超过200的客户,这时

HAVING
子句就派上用场了。
WHERE
子句是在分组前过滤行,而
HAVING
子句是在分组后过滤组。

SELECT
    customer_id,
    SUM(amount) AS total_spent,
    COUNT(order_id) AS total_orders
FROM
    orders
GROUP BY
    customer_id
HAVING
    SUM(amount) > 200;

这展示了聚合查询的基本骨架:

SELECT
聚合函数和分组字段,
FROM
表,
GROUP BY
分组字段,以及可选的
HAVING
进行分组后过滤。

聚合查询中
GROUP BY
HAVING
子句的正确姿势是什么?

这真的是初学者,乃至一些经验丰富的开发者也容易混淆的地方。我记得我刚接触SQL的时候,总是搞不清

WHERE
HAVING
到底什么时候用。简单来说,
WHERE
是对原始行进行筛选,在数据分组之前执行。它能过滤掉不符合条件的单行数据,这些数据根本就不会参与到后续的分组和聚合计算中。

HAVING
则是在数据经过
GROUP BY
分组并聚合之后,对分组结果进行筛选。它通常用于过滤那些聚合函数计算出的值不满足特定条件的组。

举个例子,假设我们想找出在2023年1月7日之后有订单,并且总消费超过100的客户。

如果我写成这样:

SELECT
    customer_id,
    SUM(amount) AS total_spent
FROM
    orders
WHERE
    order_date > '2023-01-07'  -- 筛选2023-01-07之后的订单
GROUP BY
    customer_id
HAVING
    SUM(amount) > 100;         -- 筛选总消费大于100的客户

这里的

WHERE
子句会先排除掉所有在1月7日及之前的订单。然后,剩下的订单会按
customer_id
分组,计算每个客户在1月7日之后的所有订单的总金额。最后,
HAVING
再从这些分组中选出总金额大于100的客户。这种组合使用非常常见,也最能体现两者的区别和协作。

一个常见的错误是尝试在

WHERE
子句中使用聚合函数,比如
WHERE SUM(amount) > 100
。MySQL会报错,因为它在处理
WHERE
时,还没有进行分组和聚合。记住,
WHERE
看的是单行数据,
HAVING
看的是分组后的聚合结果。

如何处理聚合查询中的空值(NULL)以及常见陷阱?

NULL
值在聚合查询中确实是个需要特别留意的点,它不是零,也不是空字符串,而是一种“未知”的状态。不同的聚合函数对
NULL
的处理方式不一样,这直接影响你的计算结果。

大多数聚合函数,比如

SUM()
,
AVG()
,
MIN()
,
MAX()
,在计算时会自动忽略
NULL
。这意味着,如果一个列中包含
NULL
,这些
NULL
值不会被计入总和、平均值、最大值或最小值。

白月生产企业订单管理系统GBK2.0  Build 080807
白月生产企业订单管理系统GBK2.0 Build 080807

请注意以下说明:1、本程序允许任何人免费使用。2、本程序采用PHP+MYSQL架构编写。并且经过ZEND加密,所以运行环境需要有ZEND引擎支持。3、需要售后服务的,请与本作者联系,联系方式见下方。4、本程序还可以与您的网站想整合,可以实现用户在线服务功能,可以让客户管理自己的信息,可以查询自己的订单状况。以及返点信息等相关客户利益的信息。这个功能可提高客户的向心度。安装方法:1、解压本系统,放在

下载

例如,如果

orders
表中
amount
字段有些是
NULL

INSERT INTO orders (customer_id, amount, order_date) VALUES
(104, NULL, '2023-01-09'),
(104, 80.00, '2023-01-09');

当我们计算

SUM(amount)
时,
NULL
会被跳过,只会计算
80.00

SELECT customer_id, SUM(amount) FROM orders GROUP BY customer_id HAVING customer_id = 104;
-- 结果是 80.00

然而,

COUNT()
函数的处理方式有所不同:

  • COUNT(*)
    :会统计所有行,包括那些包含
    NULL
    值的行。它统计的是行的数量
  • COUNT(column_name)
    :只会统计
    column_name
    列中
    NULL
    值的行数

这个区别非常重要。如果你想统计某个字段实际有多少条非空记录,就用

COUNT(column_name)
。如果你想知道一个组里有多少条记录,不管它们字段是不是
NULL
,就用
COUNT(*)

常见陷阱:

  1. 误解
    AVG()
    结果:
    如果
    AVG(column_name)
    计算的列包含
    NULL
    ,它会忽略
    NULL
    值,只计算非
    NULL
    值的平均数。这可能不是你期望的“所有记录的平均值”,而是“所有有值的记录的平均值”。如果你想把
    NULL
    当作
    0
    来计算平均值,你需要用
    COALESCE(column_name, 0)
    IFNULL(column_name, 0)
    来转换
    NULL
    值。
    -- 将NULL视为0计算平均值
    SELECT customer_id, AVG(COALESCE(amount, 0)) FROM orders GROUP BY customer_id;
  2. COUNT()
    的选择:
    总是要明确你是想统计“总行数”还是“某个非空字段的行数”。比如,统计有多少个订单(
    COUNT(order_id)
    COUNT(*)
    都行,因为
    order_id
    是主键不可能为
    NULL
    ),和统计有多少个订单的
    amount
    字段有值(
    COUNT(amount)
    ),结果可能不同。

聚合查询的性能优化策略有哪些,尤其是在大数据量下?

在大数据量下,聚合查询的性能问题是常态。我个人在处理上亿级别的数据时,经常被慢查询折磨。优化聚合查询,我觉得主要有几个方向:

  1. 利用索引: 这是最基本也是最重要的。

    WHERE
    子句中使用的列,以及
    GROUP BY
    子句中使用的列,都应该考虑建立索引。

    • WHERE
      条件中的索引可以帮助MySQL快速筛选出需要参与聚合的行,减少处理的数据量。
    • GROUP BY
      列上的索引可以加速分组过程。MySQL在执行
      GROUP BY
      时,通常需要对数据进行排序(如果不是已经有序的话)才能进行分组。如果
      GROUP BY
      的列上有索引,并且查询优化器能够利用它,可以避免额外的排序操作,或者至少能让排序更快。
    • 创建复合索引时,要注意列的顺序。如果
      GROUP BY a, b
      ,那么
      (a, b)
      的复合索引会比
      (b, a)
      更有效。
  2. 避免全表扫描,缩小数据集: 在执行聚合之前,尽量用

    WHERE
    子句过滤掉尽可能多的不相关数据。数据量越小,聚合的速度就越快。

    • 比如,只查询最近一周或一个月的订单,而不是所有历史订单。
    • 如果可以,将大的聚合查询拆分成小的、可管理的查询。
  3. 使用覆盖索引(Covering Index): 如果

    SELECT
    列表中的所有列(包括聚合函数内部的列和
    GROUP BY
    的列)都能从索引中获取,而不需要回表查询实际数据行,那么查询性能会大大提升。

    • 例如,对于
      SELECT customer_id, SUM(amount) FROM orders GROUP BY customer_id;
      ,如果有一个
      (customer_id, amount)
      的复合索引,MySQL可以直接从索引中读取
      customer_id
      amount
      进行聚合,而无需访问表数据。
  4. 合理利用子查询和临时表: 有时,复杂的聚合逻辑可以通过分解成多个步骤来优化。

    • 先用一个子查询或CTE(Common Table Expression)生成一个较小的、预聚合的数据集,然后再对这个数据集进行最终的聚合。
    • 例如,如果需要跨多个表进行复杂的聚合,可以先通过
      JOIN
      生成一个中间结果,然后将这个结果存储到临时表,再对临时表进行聚合。虽然增加了IO,但如果原始表很大,这种方式可能更快。
  5. 优化

    HAVING
    子句: 尽量将可以放在
    WHERE
    子句中的条件移到
    WHERE
    中。
    WHERE
    先过滤,减少了
    GROUP BY
    的工作量。
    HAVING
    是在分组后才过滤,效率相对较低。

  6. 硬件和配置优化: 这属于数据库层面的优化,比如增加内存、使用更快的磁盘(SSD)、调整MySQL的缓冲区大小(如

    innodb_buffer_pool_size
    )等,这些都能直接影响查询性能。

  7. 垂直分区或水平分区(分库分表): 对于超大数据量,单一表可能无法满足性能需求。将数据按某种规则进行分区(例如按时间或客户ID),可以使得聚合查询只扫描部分分区,从而大大减少数据扫描量。但这属于架构层面的优化,实现起来比较复杂。

在我实际工作中,我发现最有效的往往是组合拳:先确保

WHERE
GROUP BY
字段有合适的索引,然后检查是否能通过
WHERE
进一步缩小数据集,最后考虑是否能通过覆盖索引避免回表。这些步骤通常能解决大部分的性能瓶颈

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
数据分析工具有哪些
数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍:1、Excel,具有强大的计算和数据处理功能;2、SQL,可以进行数据查询、过滤、排序、聚合等操作;3、Python,拥有丰富的数据分析库;4、R,拥有丰富的统计分析库和图形库;5、Tableau,提供了直观易用的用户界面等等。

1110

2023.10.12

SQL中distinct的用法
SQL中distinct的用法

SQL中distinct的语法是“SELECT DISTINCT column1, column2,...,FROM table_name;”。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

340

2023.10.27

SQL中months_between使用方法
SQL中months_between使用方法

在SQL中,MONTHS_BETWEEN 是一个常见的函数,用于计算两个日期之间的月份差。想了解更多SQL的相关内容,可以阅读本专题下面的文章。

380

2024.02.23

SQL出现5120错误解决方法
SQL出现5120错误解决方法

SQL Server错误5120是由于没有足够的权限来访问或操作指定的数据库或文件引起的。想了解更多sql错误的相关内容,可以阅读本专题下面的文章。

2068

2024.03.06

sql procedure语法错误解决方法
sql procedure语法错误解决方法

sql procedure语法错误解决办法:1、仔细检查错误消息;2、检查语法规则;3、检查括号和引号;4、检查变量和参数;5、检查关键字和函数;6、逐步调试;7、参考文档和示例。想了解更多语法错误的相关内容,可以阅读本专题下面的文章。

379

2024.03.06

oracle数据库运行sql方法
oracle数据库运行sql方法

运行sql步骤包括:打开sql plus工具并连接到数据库。在提示符下输入sql语句。按enter键运行该语句。查看结果,错误消息或退出sql plus。想了解更多oracle数据库的相关内容,可以阅读本专题下面的文章。

1602

2024.04.07

sql中where的含义
sql中where的含义

sql中where子句用于从表中过滤数据,它基于指定条件选择特定的行。想了解更多where的相关内容,可以阅读本专题下面的文章。

585

2024.04.29

sql中删除表的语句是什么
sql中删除表的语句是什么

sql中用于删除表的语句是drop table。语法为drop table table_name;该语句将永久删除指定表的表和数据。想了解更多sql的相关内容,可以阅读本专题下面的文章。

439

2024.04.29

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

1

2026.03.06

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
MySQL 教程
MySQL 教程

共48课时 | 2.5万人学习

MySQL 初学入门(mosh老师)
MySQL 初学入门(mosh老师)

共3课时 | 0.3万人学习

简单聊聊mysql8与网络通信
简单聊聊mysql8与网络通信

共1课时 | 844人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号