Linux系统资源监控体系_监控指标设计

冷漠man

发布时间：2026-03-19 14:29:00

628人浏览过

来源于php中文网

原创

Linux系统资源监控需围绕稳定性、性能瓶颈和故障定位，分层观测CPU、内存、磁盘I/O、网络等关键指标：CPU关注us/sy/wa/si/hi及load average；内存重在Active/Inactive比例、pgmajfault、slab和OOM日志；磁盘需结合await、%util、avgqu-sz与blktrace；网络要分析TCP重传率、连接状态、socket缓冲区及ICMP/UDP错误；所有指标须带主机、角色等标签以支持归因。

linux系统资源监控体系_监控指标设计

Linux系统资源监控的核心在于明确“监控什么”和“怎么衡量”。指标设计不是堆砌数据，而是围绕稳定性、性能瓶颈和故障定位三个目标，聚焦可采集、可告警、可归因的关键维度。

CPU使用率：不只是一个百分比

CPU指标不能只看top里的整体%us或%id。需分层观测：

用户态（%us）与内核态（%sy）失衡：若%us低但%sy持续高于30%，可能有频繁系统调用、锁竞争或中断风暴；
等待I/O（%wa）突增：结合iostat看是否磁盘响应延迟升高，而非单纯CPU空闲；
软中断（%si）/硬中断（%hi）异常：网卡收包过载、定时器密集触发时易升高，需关联/proc/interrupts分析；
每核负载（load average）与CPU数比值：load > CPU核心数×1.5 持续5分钟，说明任务排队严重，需查runnable进程数（procs.R）。

内存：关注压力而非总量占用

避免只盯free -h的"used"。关键看是否触发回收及代价：

活跃内存（Active(file/anon)）与非活跃内存（Inactive）比例：Inactive占比长期低于10%，说明页面回收频繁，可能内存不足；
页回收速率（pgpgin/pgpgout）与缺页中断（pgmajfault）：majfault/s > 100 且持续，常指向内存不足或大页未启用；
slab内存占用（尤其是dentry/inode缓存）：slabtop中SUnreclaim过高，可能文件句柄泄漏或目录遍历过多；
OOM Killer触发日志（dmesg | grep -i "killed process"）：是内存问题的最终证据，需前置监控/proc/meminfo中MemAvailable趋势。

磁盘I/O：区分吞吐、延时与队列深度

iostat默认输出易误导。必须组合三项指标交叉判断：

阶跃星辰开放平台

阶跃星辰旗下开放平台，提供文本大模型、多模态大模型、繁星计划

下载

await > r_await/w_await：说明读写混合导致调度延迟，非单一方向瓶颈；
%util接近100%但svctm远低于await：表明I/O请求在队列中等待，可能是应用并发过高或存储后端拥塞；
avgqu-sz（平均队列长度）持续 > 队列深度（如NVMe一般为64+）：硬件已饱和，需降负载或扩容；
直接监控blktrace或iosnoop：定位具体进程的随机读写模式，例如数据库redo log刷盘抖动。

网络与连接状态：从协议栈纵深观测

netstat/ss仅看连接数远远不够：

TCP重传率（netstat -s | grep -i "retransmitted"）：> 0.5%需排查丢包或接收窗口不足；
连接状态分布（ESTABLISHED/SYN_RECV/TIME_WAIT）：SYN_RECV突增可能SYN Flood；TIME_WAIT过多需调优net.ipv4.tcp_tw_reuse；
socket缓冲区丢包（ss -i 输出中的"rcv_space"与"rwnd"差异）：接收窗口长期小于应用读取速度，导致发送方限速；
/proc/net/snmp中ICMP/UDP错误计数：如UdpNoPorts飙升，说明UDP包发往无监听端口，可能是配置错误或扫描行为。

指标设计要匹配采集粒度与存储成本。高频指标（如CPU每秒）可采样聚合，低频指标（如OOM事件）必须原始记录。所有指标需带标签（主机名、实例角色、挂载点、网卡名），否则无法下钻归因。

Linux系统中利用Iface配置文件管理静态IP地址分配教程

Linux系统中线程安全函数与非线程安全函数识别指南

Linux高可用部署实践_主备切换流程

Linux连接数过多_TCP连接状态分析方法

Linux Fail2ban怎么用_入侵防护实战

相关标签:

linux 运维 linux prometheus zabbix grafana

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Linux系统下利用Route命令实现多条静态路由批量导入下一篇：Linux时区配置错误_时区问题排查与修复

作者最新文章

如何解决Nginx编译报错：缺少头文件与库文件的排查指南

2026-03-17 13:49

如何验证Nginx编译结果：二进制文件检查与版本确认实战

2026-03-17 13:53

Java this 在构造方法链调用中的必须位置要求

2026-03-17 13:59

Java int long float double 的取值范围对比

2026-03-17 14:01

Linux系统端口扫描工具Nmap与Nc检测端口开放状态对比

2026-03-17 14:04

SQL报表分区统计缓存_分区缓存机制

2026-03-17 14:07

poki游戏免费玩入口地址_Poki官网免费游戏在线秒玩快速入口

2026-03-17 14:16

JavaScript异步函数async与await的语法糖本质

2026-03-17 14:17

Linux下TCP连接Reset报文产生场景及抓包排查案例分析

2026-03-17 14:47

如何利用 Gemini 识别旧照片并描述场景？重温回忆的 AI 方式

2026-03-17 14:54

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

磁盘配额是什么

磁盘配额是计算机中指定磁盘的储存限制，就是管理员可以为用户所能使用的磁盘空间进行配额限制，每一用户只能使用最大配额范围内的磁盘空间。php中文网为大家提供各种磁盘配额相关的内容，教程，供大家免费下载安装。

1584

2023.06.21

如何安装LINUX

本站专题提供如何安装LINUX的相关教程文章，还有相关的下载、课程，大家可以免费体验。

717

2023.06.29

linux find

find是linux命令，它将档案系统内符合 expression 的档案列出来。可以指要档案的名称、类别、时间、大小、权限等不同资讯的组合，只有完全相符的才会被列出来。find根据下列规则判断 path 和 expression，在命令列上第一个 - ( ) , ! 之前的部分为 path，之后的是 expression。还有指DOS 命令 find，Excel 函数 find等。本站专题提供linux find相关教程文章，还有相关

300

2023.06.30

linux修改文件名

本专题为大家提供linux修改文件名相关的文章，这些文章可以帮助用户快速轻松地完成文件名的修改工作，大家可以免费体验。

801

2023.07.05

linux系统安装教程

linux系统是一种可以免费使用，自由传播，多用户、多任务、多线程、多CPU的操作系统。本专题提供linux系统安装教程相关的文章，大家可以免费体验。

588

2023.07.06

linux查看文件夹大小

Linux是一种自由和开放源码的类Unix操作系统，存在着许多不同的Linux版本，但它们都使用了Linux内核。Linux可安装在各种计算机硬件设备中，比如手机、平板电脑、路由器、视频游戏控制台、台式计算机、大型机和超级计算机。linux怎么查看文件夹大小呢？php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

571

2023.07.20

linux查看ip命令

本专题为大家提供linux查看ip命令相关文章内容，感兴趣的朋友可以免费下载体验试试。

314

2023.07.20

linux查看cpu使用率

在linux的系统维护中，可能需要经常查看cpu使用率，分析系统整体的运行情况。本专题为大家带来了linux查看cpu使用率的相关文章，感兴趣的朋友千万不要错过了。

400

2023.07.25

Go Web框架Gin接口开发与中间件设计实践

本专题围绕 Go 在 Web 后端开发中的主流框架 Gin 展开，系统讲解高性能接口开发与中间件机制设计。内容涵盖路由分组、请求绑定、参数校验、统一响应封装、日志与鉴权中间件实现，以及接口限流与异常处理策略。通过实战项目案例，帮助开发者构建结构清晰、性能优良的 Go Web 服务体系，提升接口开发效率与系统可维护性。

2026.03.19

热门下载

网站特效

网站源码

网站素材

前端模板