GROUP BY + CASE WHEN 是最直接的自定义维度分组方式,需在 SELECT 和 GROUP BY 中重复写完整表达式,覆盖所有分支(含 ELSE),避免 NULL 丢失;UNION ALL 适合多维交叉统计;动态列需应用层拼接或数据库特有语法;WHERE 在分组前过滤行,HAVING 在分组后过滤组。

GROUP BY + CASE WHEN 是最直接的自定义维度分组方式
SQL 本身没有“透视表”语法(除了某些数据库的 PIVOT 扩展),所谓自定义维度分组,本质是把原始字段映射成新类别,再聚合。最通用、兼容性最好的做法就是用 CASE WHEN 配合 GROUP BY。
常见错误现象:SELECT city, COUNT(*) FROM orders GROUP BY city 只能按原始 city 分,但你要按“一线城市/新一线/其他”分,硬写 GROUP BY '一线城市' 会报错或结果全归一类。
- 必须把
CASE WHEN表达式完整写进SELECT和GROUP BY两处,缺一不可 - 别在
GROUP BY里引用SELECT中的列别名(如AS tier),MySQL 8.0+ 和 PostgreSQL 支持,但 SQLite、旧版 MySQL 不支持,直接写表达式最稳 - 所有分支都要覆盖,漏掉
ELSE可能导致部分数据被丢弃(尤其 NULL 值)
示例:
SELECT
CASE
WHEN city IN ('北京', '上海', '广州', '深圳') THEN '一线城市'
WHEN city IN ('杭州', '成都', '武汉', '西安') THEN '新一线城市'
ELSE '其他'
END AS tier,
COUNT(*) AS cnt,
AVG(amount) AS avg_amount
FROM orders
GROUP BY
CASE
WHEN city IN ('北京', '上海', '广州', '深圳') THEN '一线城市'
WHEN city IN ('杭州', '成都', '武汉', '西安') THEN '新一线城市'
ELSE '其他'
END;用 UNION ALL 拆解多维交叉分组更灵活
当你要同时看“按地区分”和“按用户等级分”的两套统计,又不想写复杂嵌套,UNION ALL 比强行塞进一个 GROUP BY 更清晰、更易调试。
使用场景:运营要对比不同维度下的转化率,但各维度逻辑差异大(比如地区按地理划分,等级按消费金额区间划分),硬拼在一个查询里会让 CASE WHEN 膨胀且难维护。
-
UNION ALL各子查询的列数、类型、顺序必须严格一致,否则报错UNION types text and integer cannot be matched - 别用
UNION(去重),它会触发排序,性能差,且你本就不希望合并相同维度值的行 - 每个子查询加个
dimension_type字段(如'region'或'level')方便后续识别来源
示例(简化):
SELECT 'region' AS dimension_type, region AS dim_value, COUNT(*) AS cnt FROM users GROUP BY region UNION ALL SELECT 'level' AS dimension_type, level AS dim_value, COUNT(*) AS cnt FROM users GROUP BY level;
动态列(列转行)只能靠应用层拼接或数据库特定语法
真正意义上的“透视”——把行变成列(比如把每月销售额变成 Jan, Feb, Mar 三列——SQL 标准不支持动态列名。要么用数据库专属语法(如 SQL Server 的 PIVOT),要么在应用代码里处理。
容易踩的坑:PIVOT 在 PostgreSQL 中不存在,MySQL 也不原生支持;硬写 MAX(CASE WHEN month = 'Jan' THEN sales END) AS Jan 看似可行,但月份列表得手动写死,无法自动适配新增月份。
- 如果月份/类别固定(如只看 Q1~Q4),用
CASE WHEN+ 聚合函数是安全选择 - 如果类别不固定(如用户自定义标签),必须由应用层查出所有可能值,再拼出完整 SQL,否则会漏数据
- SQLite 的
group_concat()可临时把多值聚合成字符串,但不是真透视,只是降维显示
WHERE 和 HAVING 的执行顺序影响分组结果
很多人以为先 GROUP BY 再过滤,其实 WHERE 在分组前筛行,HAVING 在分组后筛组。错放条件会导致结果偏差,比如想看“平均订单额 > 500 的城市”,却把条件写在 WHERE amount > 500,那就变成了“单笔订单 > 500 的记录所在城市”,完全不是一回事。
-
WHERE不能用聚合函数(COUNT,AVG等),写了会报错invalid use of group function -
HAVING必须跟在GROUP BY后,没分组时用HAVING会报错或行为未定义 - 性能上,
WHERE越早过滤掉无效行,GROUP BY数据量越小,优先用WHERE过滤原始条件
正确写法:
SELECT city, AVG(amount) AS avg_amt FROM orders WHERE status = 'paid' -- 先筛有效订单 GROUP BY city HAVING AVG(amount) > 500; -- 再筛高价值城市
自定义分组真正的复杂点不在语法,而在于维度映射逻辑是否覆盖所有边界情况:NULL 怎么归类?大小写要不要统一?字符串截断是否影响分组一致性?这些往往比写几行 CASE WHEN 更耗时间。










