如何通过直方图优化查询计划_Histogram统计信息与数据倾斜

P粉602998670

发布时间：2026-03-16 14:12:01

672人浏览过

来源于php中文网

原创

直方图未生效需先确认ANALYZE是否真正执行并覆盖目标列；直方图仅对参与查询且满足采样阈值的列生成，可通过pg_stats检查histogram_bounds是否非空。

如何通过直方图优化查询计划_histogram统计信息与数据倾斜

直方图没生效？先检查 `ANALYZE` 是否真执行了

很多情况下你以为更新了统计信息，其实 ANALYZE 根本没跑成功，或者只跑了表没跑列。PostgreSQL 默认对所有列收集简单统计（行数、空值率、最常见值等），但直方图（histogram_bounds）只对参与查询条件的列、且满足采样阈值时才生成。

实操建议：

用 SELECT * FROM pg_stats WHERE tablename = 'your_table' AND attname = 'your_col'; 查看 histogram_bounds 字段是否为非空数组；为空说明直方图没建出来
显式指定列：运行 ANALYZE your_table (your_col);，比全表 ANALYZE 更快，也更容易命中直方图生成逻辑
若列基数极高（如 UUID、时间戳），默认采样可能不足，需加大 default_statistics_target（例如设为 1000），再 ANALYZE
注意：VACUUM ANALYZE 中的 ANALYZE 阶段不会自动提升统计精度，它仍受当前 default_statistics_target 约束

WHERE 条件匹配不上直方图区间？小心数据倾斜 + 谓词写法

直方图本质是把列值域切分成等频（不是等宽）桶，优化器靠它估算 WHERE col > X 会返回多少行。但如果查询值 X 落在某个桶内部，而该桶恰好聚集了大量倾斜数据（比如 90% 的订单集中在最近 1 小时），估算就会严重失真。

实操建议：

用 \d+ your_table 或查 pg_stats.histogram_bounds，手动看直方图分界点，对比你的查询常量是否卡在“高密度桶”边缘
避免写 col >= '2024-01-01' 这类边界模糊谓词；改用 col > '2023-12-31 23:59:59.999' 让优化器更明确落在哪个桶
如果倾斜严重（如状态字段只有 'pending'/'done'，但 99% 是 pending），直方图意义不大，应建部分索引：CREATE INDEX idx_orders_pending ON orders (created_at) WHERE status = 'pending';
注意：范围查询（BETWEEN、>=）比等值查询（=）更依赖直方图质量；IN 列表过长时，优化器可能退化为选择率粗略估算

EXPLAIN 显示 rows=1000，实际扫描 100 万行？直方图只是估算依据之一

EXPLAIN 里 rows 是优化器基于直方图、MCV（most common values）、空值率等综合推算的结果，不是保证。当多表 JOIN + 多条件过滤叠加时，优化器会做独立性假设（比如认为 status 和 created_at 无关），一旦现实存在强相关性（如新订单几乎都是 pending），估算就崩了。

HIX Translate

由 ChatGPT 提供支持的智能AI翻译器

下载

实操建议：

不要单看一个 rows 值下结论；用 EXPLAIN (ANALYZE, BUFFERS) 对比 actual rows 和 rows 差距，确认是否真偏差大
检查是否触发了“行数低估 → 选错连接顺序 → 大表驱动小表”的恶性循环；此时强制改写 SQL 或加 JOIN LATERAL 可能比调统计信息更有效
PostgreSQL 12+ 支持扩展统计（CREATE STATISTICS），对相关列组合建统计，比单列直方图更能缓解多条件误判，但需手动创建且不自动更新
注意：即使直方图完美，如果 work_mem 不足导致哈希连接降级为归并或嵌套循环，性能问题也不在统计信息层面

MySQL / Oracle 用户别直接套用 PostgreSQL 直方图逻辑

各数据库直方图实现差异极大：PostgreSQL 用等频直方图 + MCV，MySQL 8.0+ 的 HISTOGRAM 默认是等深（SINGLE_PRECISION），Oracle 则分 HEIGHT BALANCED 和 FREQUENCY 两类，且对 NULL、绑定变量处理完全不同。

实操建议：

MySQL：必须显式启用 ANALYZE TABLE t UPDATE HISTOGRAM ON c;，且默认只存 100 个桶；查看用 SELECT * FROM information_schema.COLUMN_STATISTICS;
Oracle：直方图是否启用取决于 DBMS_STATS 的 method_opt 参数，比如 'FOR COLUMNS SIZE AUTO' 才可能触发，不是 ANALYZE 就自动有
共性陷阱：所有数据库中，直方图对 LIKE '%xxx'、函数索引表达式（如 UPPER(name)）均无效，优化器只能回退到全表扫描估算
注意：SQL Server 的统计信息叫 “statistics object”，虽含直方图，但更新机制依赖自动采样比例和修改行数阈值，不主动 UPDATE STATISTICS 很容易过期

直方图从来不是“开了就灵”的开关，它是优化器在信息不完备时做的概率游戏——你给的数据分布越真实，它猜得越准；但一旦业务逻辑天然倾斜，或者查询模式绕过统计覆盖范围，就得靠索引、分区、重写甚至物化结果来兜底。

相关标签:

sql mysql Object NULL 常量 for select auto 循环 table oracle postgresql 数据库

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何优化联合索引的字段顺序_等值条件优先与高区分度前置下一篇：暂无

作者最新文章

Java中的SynchronousQueue有什么特点_容量为0的线程间直接握手传递通道

2026-03-16 09:55

Java基础如何手写一个简单的记事本程序_IO字符流读写与File类文件操作

2026-03-16 09:55

mysql如何备份表结构不包含数据_mysql --no-data参数

2026-03-16 09:56

如何在Golang中控制函数内联Inlining Go语言gcflags参数详解

2026-03-16 09:56

PostgreSQL在Navicat中如何修改已有表结构_高级特性支持

2026-03-16 09:57

怎么设置MongoDB客户端读取操作的过时容忍度_maxStalenessSeconds详解

2026-03-16 09:57

Navicat连Redis出现中文乱码怎么办_字符集编码调整

2026-03-16 09:57

如何配置Active Data Guard_备库实时查询与只读打开模式实现

2026-03-16 09:58

怎么优化远程服务器的开启备份文件加密保护_降低延迟与丢包率

2026-03-16 09:58

如何在Java接口中定义静态方法_工具方法的封装与调用规范

2026-03-16 09:58

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍：1、Excel，具有强大的计算和数据处理功能；2、SQL，可以进行数据查询、过滤、排序、聚合等操作；3、Python，拥有丰富的数据分析库；4、R，拥有丰富的统计分析库和图形库；5、Tableau，提供了直观易用的用户界面等等。

1135

2023.10.12