Prometheus是什么_Prometheus监控原理解析

P粉602998670

发布时间：2026-02-14 14:13:02

709人浏览过

来源于php中文网

原创

prometheus采用pull模型而非push模型，因其适配云原生动态环境；正确使用counter、gauge、histogram指标类型；避免高基数label，确保指标语义清晰、类型准确、标签合理。

prometheus是什么_prometheus监控原理解析

Prometheus 是一个以“拉取（pull）”为核心、专为云原生环境设计的时序数据库监控系统，不是通用日志或事件收集器，也不是传统 agent-based 的轮询工具——它靠目标自己暴露 /metrics 接口，由 Prometheus 主动 HTTP GET 抓取。

因为容器 IP 频繁变化、服务生命周期短、网络策略限制多。push 模型需要每个客户端主动连到中心服务，容易因网络不通、重试堆积、连接数爆炸而失败；pull 模型则由服务端统一控制节奏、超时和重试，天然具备反向防火墙穿透能力，也更容易做采样限流和故障隔离。

典型错误：把 Prometheus 当成 StatsD 用，试图让业务代码调 pushgateway 上报所有指标 → 导致高基数标签泛滥、时间序列暴增、TSDB 崩溃
正确姿势：长期运行的服务（如 API、MySQL）用 Exporter 或客户端库暴露 /metrics；仅 CronJob 等短任务才走 pushgateway，且必须带唯一 job 和 instance 标签，并在下次推送前清理旧数据
注意：pushgateway 不是存储层，只是中转站，Prometheus 抓完即丢，不能替代 TSDB

Counter 和 Gauge 看似简单，但混用会导致 rate() 计算出荒谬结果，比如负值、跳变、归零。根本原因是 Counter 必须单调递增，而 Gauge 表示瞬时状态，二者语义不可互换。

道影AI

专业的AI短剧生成解决方案，从资产创建到视频生成，一站式智能化内容生产。

下载

HTTP 请求总数必须用 counter（如 http_requests_total），否则 rate(http_requests_total[5m]) 会失效
内存使用量必须用 gauge（如 node_memory_MemAvailable_bytes），若误定义为 counter，重启后数值归零将被 rate() 解释为“瞬间释放了 TB 内存”
延迟类指标优先用 histogram 而非 summary：前者支持服务端聚合（sum(rate(http_request_duration_seconds_bucket[5m]))），后者只能客户端计算分位数，无法跨实例合并

一个高基数 label（如 user_id="123456789" 或 request_id="abc-def-xyz"）会让单个 metric 爆出数万时间序列，直接拖垮 Prometheus 内存与查询延迟，甚至触发 OOMKill。

禁止将唯一值、会话 ID、URL 路径全量作为 label；应提取稳定维度，比如把 /user/123/profile 归一化为 path="/user/{id}/profile"
用 label_replace() 在 PromQL 中动态重写 label，比在 Exporter 里硬编码更灵活安全
检查高基数：执行 count by (__name__) ({__name__=~".+"}) 查看哪些 metric 拥有最多时间序列；超过 10k 就该警惕

真正难的从来不是装上 Prometheus，而是让每条指标从诞生起就带着正确的类型、合理的 label、清晰的语义——这决定了后续所有告警、看板、容量分析是否可信。别等查不出根因时再回头改指标定义，那比重构服务还重。

相关标签:

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

手机QQ缓存文件怎么清理_释放QQ占用内存空间与深度清理教程

2026-02-13 16:11

漫蛙Manwa漫画入口地址_漫蛙漫画官网登录页面集合

2026-02-13 16:12

2026春节后快递什么时候能送到_各快递节后恢复正常派送安排

2026-02-13 16:13