0

0

Linux 运维监控系统架构设计

冷炫風刃

冷炫風刃

发布时间:2026-02-14 22:13:02

|

207人浏览过

|

来源于php中文网

原创

telegraf适合多源指标采集,node exporter专精linux系统指标且与prometheus天然对齐;告警逻辑写在prometheus,alertmanager只负责通知;grafana中prometheus查指标、loki查日志、tempo查链路;高可用场景thanos更轻量,但指标生命周期管理比组件选型更关键。

linux 运维监控系统架构设计

监控数据采集层该用 Telegraf 还是 Prometheus Node Exporter

Telegraf 更适合统一采集多源指标(数据库、API、日志),Node Exporter 专精于 Linux 系统级指标,且与 Prometheus 生态天然对齐。选错会导致指标语义混乱、relabel 规则爆炸。

  • 如果你只监控主机 CPU/内存/磁盘/网络,node_exporter 是默认选择:轻量、稳定、指标命名规范(如 node_cpu_seconds_total),Prometheus 直接 scrape 即可
  • 若需同时拉取 MySQL 的 mysql_global_status_threads_connected、Nginx 日志中的 5xx 计数、或自定义 shell 脚本输出,telegraf 的插件机制更可控,但必须手动配置 outputs.prometheus_client 暴露端口,否则无法被 Prometheus 抓取
  • 常见坑:telegraf 默认不开启 prometheus_client 输出;node_exporter 在容器中运行时若未加 --privileged 或挂载 /proc//sys,会大量报 no such file or directory

告警规则写在 Prometheus 还是 Alertmanager

规则逻辑(“什么条件触发告警”)必须写在 Prometheus 的 alert.rules.yml,Alertmanager 只负责“怎么通知”和“谁来处理”。混用会导致静默失效、重复告警或规则不生效。

  • prometheus.yml 中的 rule_files 指向的是告警判断逻辑,例如:expr: 100 * (node_memory_MemTotal_bytes - node_memory_MemFree_bytes) / node_memory_MemTotal_bytes > 90
  • alertmanager.yml 里配的是路由树(route)、静默(inhibit_rules)、通知方式(email_configswebhook_configs),它不解析 PromQL
  • 容易踩的坑:把阈值判断写进 Alertmanager 的 inhibit_rules —— 它只支持匹配标签,不能做数值计算;改了 alert.rules.yml 必须 curl -X POST http://localhost:9090/-/reload 或重启 Prometheus,否则规则不加载

Grafana 面板数据源选 Prometheus 还是 Loki + Tempo

Prometheus 用来查指标趋势(“CPU 用了多少”),Loki 查日志原文(“报错堆栈在哪一行”),Tempo 查链路追踪(“请求卡在哪个服务”)。三者不能互相替代,但常被误当成同一类数据源配置。

同徽B2C电子商务软件系统
同徽B2C电子商务软件系统

开发语言:java,支持数据库:Mysql 5,系统架构:J2EE,操作系统:linux/Windows1. 引言 32. 系统的结构 32.1 系统概述 33. 功能模块设计说明 43.1 商品管理 43.1.1 添加商品功能模块 53.1.2 商品列表功能模块 83.1.3 商品关联功能模块 93.

下载
  • 看 CPU 使用率、HTTP 请求数、GC 次数,必须用 Prometheus 数据源,用 rate(http_requests_total[5m]) 这类聚合函数
  • 定位一次超时请求的具体错误日志,得切到 Loki 数据源,用 {job="api-server"} |= "timeout" 过滤,再点开某条日志下钻到 Tempo 查 trace_id
  • 关键细节:Grafana 的变量($instance)在 Prometheus 数据源里能自动补全,在 Loki 里默认不支持 label 查询补全,需手动配置 lokiderivedFields 或用 explore 模式临时查

监控系统高可用绕不开 Thanos 或 Cortex 吗

单 Prometheus 实例扛不住 10 万以上时间序列或跨机房查询时,Thanos 是目前最轻量、侵入性最小的方案;Cortex 更重,适合已深度绑定 Kubernetes 和对象存储的团队。

  • Thanos 只需在现有 Prometheus 上加一个 thanos-sidecar,再起 thanos-querythanos-store,就能实现全局视图、长期存储(对接 S3/MinIO)、降采样——不用改采集逻辑
  • Cortex 要求所有组件(distributor、ingester、querier)全部部署,且指标必须走 Cortex 自己的 /api/v1/push 接口,原有 scrape 配置基本作废
  • 真实陷阱:Thanos 的 objstore.s3 配置里,bucket 名写错或权限没开,thanos-store 会静默失败,日志只打印 failed to get object,得盯紧 thanos-tools bucket ls 命令是否能列出文件

架构里最易被忽略的不是组件选型,而是指标生命周期管理:旧指标不清除,TSDB 就会膨胀;label 设计不合理(比如把请求 URL 当 label),一个接口带参数就生成几百个 series,压垮 Prometheus。这比选什么工具都致命。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
mysql修改数据表名
mysql修改数据表名

MySQL修改数据表:1、首先查看数据库中所有的表,代码为:‘SHOW TABLES;’;2、修改表名,代码为:‘ALTER TABLE 旧表名 RENAME [TO] 新表名;’。php中文网还提供MySQL的相关下载、相关课程等内容,供大家免费下载使用。

677

2023.06.20

MySQL创建存储过程
MySQL创建存储过程

存储程序可以分为存储过程和函数,MySQL中创建存储过程和函数使用的语句分别为CREATE PROCEDURE和CREATE FUNCTION。使用CALL语句调用存储过程智能用输出变量返回值。函数可以从语句外调用(通过引用函数名),也能返回标量值。存储过程也可以调用其他存储过程。php中文网还提供MySQL创建存储过程的相关下载、相关课程等内容,供大家免费下载使用。

371

2023.06.21

mongodb和mysql的区别
mongodb和mysql的区别

mongodb和mysql的区别:1、数据模型;2、查询语言;3、扩展性和性能;4、可靠性。本专题为大家提供mongodb和mysql的区别的相关的文章、下载、课程内容,供大家免费下载体验。

284

2023.07.18

mysql密码忘了怎么查看
mysql密码忘了怎么查看

MySQL是一个关系型数据库管理系统,由瑞典MySQL AB 公司开发,属于 Oracle 旗下产品。MySQL 是最流行的关系型数据库管理系统之一,在 WEB 应用方面,MySQL是最好的 RDBMS 应用软件之一。那么mysql密码忘了怎么办呢?php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

519

2023.07.19

mysql创建数据库
mysql创建数据库

MySQL是一个关系型数据库管理系统,由瑞典MySQL AB 公司开发,属于 Oracle 旗下产品。MySQL 是最流行的关系型数据库管理系统之一,在 WEB 应用方面,MySQL是最好的 RDBMS 应用软件之一。那么mysql怎么创建数据库呢?php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

262

2023.07.25

mysql默认事务隔离级别
mysql默认事务隔离级别

MySQL是一种广泛使用的关系型数据库管理系统,它支持事务处理。事务是一组数据库操作,它们作为一个逻辑单元被一起执行。为了保证事务的一致性和隔离性,MySQL提供了不同的事务隔离级别。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

392

2023.08.08

sqlserver和mysql区别
sqlserver和mysql区别

SQL Server和MySQL是两种广泛使用的关系型数据库管理系统。它们具有相似的功能和用途,但在某些方面存在一些显著的区别。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

537

2023.08.11

mysql忘记密码
mysql忘记密码

MySQL是一种关系型数据库管理系统,关系数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性。那么忘记mysql密码我们该怎么解决呢?php中文网给大家带来了相关的教程以及其他关于mysql的文章,欢迎大家前来学习阅读。

636

2023.08.14

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

76

2026.02.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 9.1万人学习

Git 教程
Git 教程

共21课时 | 3.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号