0

0

Linux系统资源监控体系_监控指标设计

冷漠man

冷漠man

发布时间:2026-03-19 14:29:00

|

628人浏览过

|

来源于php中文网

原创

Linux系统资源监控需围绕稳定性、性能瓶颈和故障定位,分层观测CPU、内存、磁盘I/O、网络等关键指标:CPU关注us/sy/wa/si/hi及load average;内存重在Active/Inactive比例、pgmajfault、slab和OOM日志;磁盘需结合await、%util、avgqu-sz与blktrace;网络要分析TCP重传率、连接状态、socket缓冲区及ICMP/UDP错误;所有指标须带主机、角色等标签以支持归因。

linux系统资源监控体系_监控指标设计

Linux系统资源监控的核心在于明确“监控什么”和“怎么衡量”。指标设计不是堆砌数据,而是围绕稳定性、性能瓶颈和故障定位三个目标,聚焦可采集、可告警、可归因的关键维度。

CPU使用率:不只是一个百分比

CPU指标不能只看top里的整体%us或%id。需分层观测:

  • 用户态(%us)与内核态(%sy)失衡:若%us低但%sy持续高于30%,可能有频繁系统调用、锁竞争或中断风暴;
  • 等待I/O(%wa)突增:结合iostat看是否磁盘响应延迟升高,而非单纯CPU空闲;
  • 软中断(%si)/硬中断(%hi)异常:网卡收包过载、定时器密集触发时易升高,需关联/proc/interrupts分析;
  • 每核负载(load average)与CPU数比值:load > CPU核心数×1.5 持续5分钟,说明任务排队严重,需查runnable进程数(procs.R)。

内存:关注压力而非总量占用

避免只盯free -h的"used"。关键看是否触发回收及代价:

  • 活跃内存(Active(file/anon))与非活跃内存(Inactive)比例:Inactive占比长期低于10%,说明页面回收频繁,可能内存不足;
  • 页回收速率(pgpgin/pgpgout)与缺页中断(pgmajfault):majfault/s > 100 且持续,常指向内存不足或大页未启用;
  • slab内存占用(尤其是dentry/inode缓存):slabtop中SUnreclaim过高,可能文件句柄泄漏或目录遍历过多;
  • OOM Killer触发日志(dmesg | grep -i "killed process"):是内存问题的最终证据,需前置监控/proc/meminfo中MemAvailable趋势。

磁盘I/O:区分吞吐、延时与队列深度

iostat默认输出易误导。必须组合三项指标交叉判断:

阶跃星辰开放平台
阶跃星辰开放平台

阶跃星辰旗下开放平台,提供文本大模型、多模态大模型、繁星计划

下载
  • await > r_await/w_await:说明读写混合导致调度延迟,非单一方向瓶颈;
  • %util接近100%但svctm远低于await:表明I/O请求在队列中等待,可能是应用并发过高或存储后端拥塞;
  • avgqu-sz(平均队列长度)持续 > 队列深度(如NVMe一般为64+):硬件已饱和,需降负载或扩容;
  • 直接监控blktrace或iosnoop:定位具体进程的随机读写模式,例如数据库redo log刷盘抖动。

网络与连接状态:从协议栈纵深观测

netstat/ss仅看连接数远远不够:

  • TCP重传率(netstat -s | grep -i "retransmitted"):> 0.5%需排查丢包或接收窗口不足;
  • 连接状态分布(ESTABLISHED/SYN_RECV/TIME_WAIT):SYN_RECV突增可能SYN Flood;TIME_WAIT过多需调优net.ipv4.tcp_tw_reuse;
  • socket缓冲区丢包(ss -i 输出中的"rcv_space"与"rwnd"差异):接收窗口长期小于应用读取速度,导致发送方限速;
  • /proc/net/snmp中ICMP/UDP错误计数:如UdpNoPorts飙升,说明UDP包发往无监听端口,可能是配置错误或扫描行为。

指标设计要匹配采集粒度与存储成本。高频指标(如CPU每秒)可采样聚合,低频指标(如OOM事件)必须原始记录。所有指标需带标签(主机名、实例角色、挂载点、网卡名),否则无法下钻归因。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
磁盘配额是什么
磁盘配额是什么

磁盘配额是计算机中指定磁盘的储存限制,就是管理员可以为用户所能使用的磁盘空间进行配额限制,每一用户只能使用最大配额范围内的磁盘空间。php中文网为大家提供各种磁盘配额相关的内容,教程,供大家免费下载安装。

1584

2023.06.21

如何安装LINUX
如何安装LINUX

本站专题提供如何安装LINUX的相关教程文章,还有相关的下载、课程,大家可以免费体验。

717

2023.06.29

linux find
linux find

find是linux命令,它将档案系统内符合 expression 的档案列出来。可以指要档案的名称、类别、时间、大小、权限等不同资讯的组合,只有完全相符的才会被列出来。find根据下列规则判断 path 和 expression,在命令列上第一个 - ( ) , ! 之前的部分为 path,之后的是 expression。还有指DOS 命令 find,Excel 函数 find等。本站专题提供linux find相关教程文章,还有相关

300

2023.06.30

linux修改文件名
linux修改文件名

本专题为大家提供linux修改文件名相关的文章,这些文章可以帮助用户快速轻松地完成文件名的修改工作,大家可以免费体验。

801

2023.07.05

linux系统安装教程
linux系统安装教程

linux系统是一种可以免费使用,自由传播,多用户、多任务、多线程、多CPU的操作系统。本专题提供linux系统安装教程相关的文章,大家可以免费体验。

588

2023.07.06

linux查看文件夹大小
linux查看文件夹大小

Linux是一种自由和开放源码的类Unix操作系统,存在着许多不同的Linux版本,但它们都使用了Linux内核。Linux可安装在各种计算机硬件设备中,比如手机、平板电脑、路由器、视频游戏控制台、台式计算机、大型机和超级计算机。linux怎么查看文件夹大小呢?php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

571

2023.07.20

linux查看ip命令
linux查看ip命令

本专题为大家提供linux查看ip命令相关文章内容,感兴趣的朋友可以免费下载体验试试。

314

2023.07.20

linux查看cpu使用率
linux查看cpu使用率

在linux的系统维护中,可能需要经常查看cpu使用率,分析系统整体的运行情况。本专题为大家带来了linux查看cpu使用率的相关文章,感兴趣的朋友千万不要错过了。

400

2023.07.25

Go Web框架Gin接口开发与中间件设计实践
Go Web框架Gin接口开发与中间件设计实践

本专题围绕 Go 在 Web 后端开发中的主流框架 Gin 展开,系统讲解高性能接口开发与中间件机制设计。内容涵盖路由分组、请求绑定、参数校验、统一响应封装、日志与鉴权中间件实现,以及接口限流与异常处理策略。通过实战项目案例,帮助开发者构建结构清晰、性能优良的 Go Web 服务体系,提升接口开发效率与系统可维护性。

7

2026.03.19

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 11万人学习

Git 教程
Git 教程

共21课时 | 4.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号