Linux系统巡检指标设计_巡检指标体系

舞夢輝影

发布时间：2026-03-14 11:19:04

555人浏览过

来源于php中文网

原创

核心资源、服务进程、文件系统及安全基线是系统巡检四大维度：CPU关注load平均值与核数比，内存重在Available和Swap使用，磁盘需监控Usage、iowait与队列长度，网络查错误包与带宽；服务状态须验证systemctl与端口监听双重确认；进程存活依赖pgrep与运行时长检查；日志扫描“failed”等关键词；Inode超90%、SMART异常、挂载只读均属隐患；安全方面严控UID=0账户数、SUID文件、SSH配置及日志完整性。

linux系统巡检指标设计_巡检指标体系

核心资源使用率指标

CPU、内存、磁盘和网络是系统稳定运行的基础。巡检时需关注其使用率是否持续偏高或存在突增趋势，而非仅看瞬时值。

CPU：重点关注 load average（1/5/15分钟） 与逻辑CPU核数的比值，若15分钟load > 核数×0.7，需排查是否存在长时占用进程；top -b -n1 | head -20 可快速定位TOP消耗进程
内存：除 MemUsed% 外，更应检查 Available 值是否低于总内存15%，以及 SwapUsed% 是否非零——后者常暗示内存压力已触发交换，影响性能
磁盘：对根分区（/）、日志目录（/var/log）、应用数据目录分别监控 Usage%；同时采集 iowait% 和 avgqu-sz（平均队列长度），>4且持续超2分钟需警惕IO瓶颈
网络：检查关键接口（如eth0、ens33）的 rx/tx errors, dropped, overruns 是否增长；带宽使用率建议按峰值流量的70%设阈值，避免突发打满

关键服务与进程状态指标

服务是否存活、端口是否监听、进程是否异常退出，直接影响业务可用性。指标设计需覆盖“存在性”与“功能性”两层。

服务状态：用 systemctl is-active xxx.service 判断服务单元状态，但需配合 ss -tlnp | grep :端口号 验证端口真实监听情况，防止服务假死
进程存活：对Java、Python等非systemd托管进程，通过 pgrep -f "关键词" + ps -o pid,etime,args -p PID 检查PID是否存在及运行时长，避免因OOM被kill后未重启
日志异常：扫描 /var/log/messages、/var/log/secure 最近100行中含 “failed”、“error”、“segmentation fault”、“killed process” 的条目，统计频次并标记高频关键词

文件系统与存储健康指标

除空间占用外，还需关注inode使用率、磁盘SMART状态、挂载一致性等易被忽略的深层健康信号。

Peppertype.ai

高质量AI内容生成软件，它通过使用机器学习来理解用户的需求。

下载

Inode使用率：执行 df -i，若某分区 Inodes% > 90%，即使空间充足，也可能导致新建文件失败（常见于日志、缓存类小文件密集场景）
磁盘SMART：对SATA/NVMe盘，用 smartctl -H /dev/sda 检查健康摘要，结合 smartctl -A /dev/sda | grep -E "(Reallocated|Pending|UDMA_Crc)" 关注关键属性值是否非零或增长
挂载状态：运行 mount | grep -v "proc\|sysfs\|devtmpfs"，确认所有业务相关挂载点均处于 rw 状态，避免因网络存储中断变为 ro 导致写入失败

安全与合规基线指标

巡检不仅是稳定性保障，也是安全防线。需将基础安全配置纳入常态化检查项。

用户与权限：检查 /etc/passwd 中UID=0的用户个数（应≤2：root+必要运维账号）；用 find /etc -type f -perm -4000 -o -perm -2000 2>/dev/null 扫描可疑suid/sgid文件
SSH加固：验证 /etc/ssh/sshd_config 中 PermitRootLogin no、PasswordAuthentication no、MaxAuthTries 3 是否生效，并确认 sshd -t 配置语法无误
关键日志完整性：检查 rkhunter --check 或 clamscan --infected /var/log/（若有部署），并确认 auditd 服务运行且规则加载正常（auditctl -l | wc -l > 0）

Linux系统中利用Lsof命令查看进程打开的文件句柄详情

Linux环境下针对Socket通信中SIGPIPE信号的处理技巧

Linux磁盘配额配置_用户磁盘限制实践

Linux 高并发连接优化_连接复用策略

Linux系统利用Watch命令实时监控进程资源变动实操

相关专题

c语言中null和NULL的区别

c语言中null和NULL的区别是：null是C语言中的一个宏定义，通常用来表示一个空指针，可以用于初始化指针变量，或者在条件语句中判断指针是否为空；NULL是C语言中的一个预定义常量，通常用来表示一个空值，用于表示一个空的指针、空的指针数组或者空的结构体指针。

254

2023.09.22

java中null的用法

在Java中，null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量，包括类、接口、数组、字符串等。想了解更多null的相关内容，可以阅读本专题下面的文章。

1089

2024.03.01

scripterror怎么解决

scripterror的解决办法有检查语法、文件路径、检查网络连接、浏览器兼容性、使用try-catch语句、使用开发者工具进行调试、更新浏览器和JavaScript库或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

492

2023.10.18

500error怎么解决

500error的解决办法有检查服务器日志、检查代码、检查服务器配置、更新软件版本、重新启动服务、调试代码和寻求帮助等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

382

2023.10.25

硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍：1、IDE接口是一种并行接口，主要用于连接硬盘和光驱等设备，它主要有两种类型：ATA和ATAPI，IDE接口已经逐渐被SATA接口；2、SATA接口是一种串行接口，相较于IDE接口，它具有更高的传输速度、更低的功耗和更小的体积；3、SCSI接口等等。

1960

2023.10.19