如何用 APPROX_PERCENTILE / PERCENTILE_CONT 计算近似分位数

舞姬之光

发布时间：2026-01-30 20:27:12

685人浏览过

来源于php中文网

原创

核心区别在于计算方式与适用场景：PERCENTILE_CONT 精确插值但易OOM超时，APPROX_PERCENTILE 基于sketch近似计算，快且省内存但有误差；如查1亿行95分位数，前者可能卡住，后者秒级返回。

如何用 approx_percentile / percentile_cont 计算近似分位数

APPROX_PERCENTILE 和 PERCENTILE_CONT 的核心区别在哪

简单说：PERCENTILE_CONT 是精确计算（基于排序后插值），APPROX_PERCENTILE 是近似计算（基于采样或 sketch 算法）。前者在大数据量下可能 OOM 或超时，后者快且省内存，但结果有误差范围。

典型场景：查 1 亿行用户停留时长的 95 分位数 —— 用 PERCENTILE_CONT 可能卡住，APPROX_PERCENTILE 几秒返回，误差通常

PERCENTILE_CONT 要求输入列可排序，且必须配合 OVER() 或分组使用（如 GROUP BY）
APPROX_PERCENTILE 多数引擎（Trino、Spark SQL、BigQuery）支持直接聚合，不强制排序，也无 OVER 限制
PostgreSQL 只有 PERCENTILE_CONT；ClickHouse 两者都有，但 APPROX_PERCENTILE 对应的是 quantile 系列函数

不同数据库里怎么写才不报错

语法差异极大，抄错一个关键字就失败。重点看三类常见错误：

Trino：用 approx_percentile(x, 0.95)，不是 approx_percentile(x, 95)（必须是 0~1 小数）
BigQuery：用 APPROX_QUANTILES(x, 100)[OFFSET(95)] 或 APPROX_PERCENTILE(x, 0.95)（v1.4+ 支持后者）
Spark SQL：approx_percentile(col, 0.95)，但注意它不支持多分位数一次算；想同时要 0.5/0.9/0.95，得写三次或改用 approx_quantile
PostgreSQL：没有 APPROX_PERCENTILE，强行用会报 function approx_percentile does not exist；只能用 PERCENTILE_CONT(0.95) WITHIN GROUP (ORDER BY x)

为什么 APPROX_PERCENTILE 有时返回 NULL 或异常值

不是 bug，通常是数据或参数没对齐。常见原因：

AI改图神器

AI万能图片编辑器，一键抠图，去水印，智能图片美化，照片转漫画，照片变活转视频，图片无损放大，一键背景虚化，位图智能转矢量图

下载

输入列为全 NULL：多数引擎返回 NULL，APPROX_PERCENTILE 不做空值过滤，需显式加 WHERE x IS NOT NULL
百分位参数越界：传了 1.2 或 -0.1，Trino 报 percentile must be between 0 and 1，Spark 可能静默转成 0 或 1
内存不足触发降级：Trino 默认 sketch size 是 10k，超大数据倾斜时 sketch 失效，误差飙升甚至返回 null；可调大 approx_percentile.accuracy 配置
类型不匹配：对字符串列用 APPROX_PERCENTILE，报错类似 Unexpected type: varchar —— 它只接受数值型（DOUBLE、REAL、BIGINT）

性能差？先检查是否误用了 PERCENTILE_CONT

如果查询跑了几分钟还不出结果，大概率是用了 PERCENTILE_CONT 处理千万级以上数据。它本质是全局排序 + 插值，shuffle 数据量极大。

确认执行计划：Trino 查 EXPLAIN (TYPE DISTRIBUTED)，看是否有 Sort + Window 节点；Spark 看 Spark UI 的 Stage 是否出现 long-running SortMergeJoin
临时替换测试：把 PERCENTILE_CONT(0.95) WITHIN GROUP (ORDER BY x) 换成 APPROX_PERCENTILE(x, 0.95)，对比耗时
精度够用就别硬扛：95 分位数误差 ±0.3 秒对业务影响不大，但省下 90% 时间，这种 trade-off 很常见

真正难的是评估误差是否可接受——得拿小样本跑一遍 PERCENTILE_CONT 和 APPROX_PERCENTILE 对比，而不是凭感觉。

SQL如何对查询进行权重排序_ORDER BY FIELD与自定义权重

SQL报表大数据场景优化_冷热数据分离

MySQL 大数据量处理面试解析

SQLCOUNT统计优化技巧_计数缓存与覆盖索引

SQL外键约束性能_外键对写入的影响

相关标签:

大数据 ai win sql NULL sort 字符串 double function 算法 spark postgresql 数据库 clickhouse ui bug

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：SQL 如何批量插入 10 万条数据不卡死事务下一篇：LIMIT / OFFSET 在 MySQL 与 PostgreSQL 的排序一致性问题

作者最新文章

MacOS系统利用第三方工具监控磁盘健康度与寿命

2026-03-14 13:07

poki免费游戏入口宝玩系列_Poki宝玩小游戏免费在线秒玩入口

2026-03-14 14:04

MacOS系统第三方文件管理器遍历算法效率深度评测

2026-03-14 14:17

Nginx中TCP代理配置负载均衡算法Round-robin

2026-03-14 14:23

Windows运维中利用GPO禁用内置Administrator账号

2026-03-14 14:24

Windows运维中SPN服务主体名称的注册与冲突排查

2026-03-14 14:25

ContainerRuntime多运行时并发管理与切换实战

2026-03-14 14:40

Adobe如何切换中文 Adobe多语言设置说明

2026-03-14 15:14

7723游戏盒怎么在电脑上下载_7723游戏盒pc版官网下载安装教程

2026-03-14 15:18

MySQL 并发更新问题面试解析

2026-03-14 15:29

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍：1、Excel，具有强大的计算和数据处理功能；2、SQL，可以进行数据查询、过滤、排序、聚合等操作；3、Python，拥有丰富的数据分析库；4、R，拥有丰富的统计分析库和图形库；5、Tableau，提供了直观易用的用户界面等等。

1135

2023.10.12