核心资源、服务进程、文件系统及安全基线是系统巡检四大维度:CPU关注load平均值与核数比,内存重在Available和Swap使用,磁盘需监控Usage、iowait与队列长度,网络查错误包与带宽;服务状态须验证systemctl与端口监听双重确认;进程存活依赖pgrep与运行时长检查;日志扫描“failed”等关键词;Inode超90%、SMART异常、挂载只读均属隐患;安全方面严控UID=0账户数、SUID文件、SSH配置及日志完整性。

核心资源使用率指标
CPU、内存、磁盘和网络是系统稳定运行的基础。巡检时需关注其使用率是否持续偏高或存在突增趋势,而非仅看瞬时值。
- CPU:重点关注 load average(1/5/15分钟) 与逻辑CPU核数的比值,若15分钟load > 核数×0.7,需排查是否存在长时占用进程;
top -b -n1 | head -20可快速定位TOP消耗进程 - 内存:除 MemUsed% 外,更应检查 Available 值是否低于总内存15%,以及 SwapUsed% 是否非零——后者常暗示内存压力已触发交换,影响性能
- 磁盘:对根分区(/)、日志目录(/var/log)、应用数据目录分别监控 Usage%;同时采集 iowait% 和 avgqu-sz(平均队列长度),>4且持续超2分钟需警惕IO瓶颈
- 网络:检查关键接口(如eth0、ens33)的 rx/tx errors, dropped, overruns 是否增长;带宽使用率建议按峰值流量的70%设阈值,避免突发打满
关键服务与进程状态指标
服务是否存活、端口是否监听、进程是否异常退出,直接影响业务可用性。指标设计需覆盖“存在性”与“功能性”两层。
- 服务状态:用
systemctl is-active xxx.service判断服务单元状态,但需配合ss -tlnp | grep :端口号验证端口真实监听情况,防止服务假死 - 进程存活:对Java、Python等非systemd托管进程,通过
pgrep -f "关键词"+ps -o pid,etime,args -p PID检查PID是否存在及运行时长,避免因OOM被kill后未重启 - 日志异常:扫描
/var/log/messages、/var/log/secure最近100行中含 “failed”、“error”、“segmentation fault”、“killed process” 的条目,统计频次并标记高频关键词
文件系统与存储健康指标
除空间占用外,还需关注inode使用率、磁盘SMART状态、挂载一致性等易被忽略的深层健康信号。
- Inode使用率:执行
df -i,若某分区 Inodes% > 90%,即使空间充足,也可能导致新建文件失败(常见于日志、缓存类小文件密集场景) - 磁盘SMART:对SATA/NVMe盘,用
smartctl -H /dev/sda检查健康摘要,结合smartctl -A /dev/sda | grep -E "(Reallocated|Pending|UDMA_Crc)"关注关键属性值是否非零或增长 - 挂载状态:运行
mount | grep -v "proc\|sysfs\|devtmpfs",确认所有业务相关挂载点均处于 rw 状态,避免因网络存储中断变为 ro 导致写入失败
安全与合规基线指标
巡检不仅是稳定性保障,也是安全防线。需将基础安全配置纳入常态化检查项。
- 用户与权限:检查
/etc/passwd中UID=0的用户个数(应≤2:root+必要运维账号);用find /etc -type f -perm -4000 -o -perm -2000 2>/dev/null扫描可疑suid/sgid文件 - SSH加固:验证
/etc/ssh/sshd_config中 PermitRootLogin no、PasswordAuthentication no、MaxAuthTries 3 是否生效,并确认sshd -t配置语法无误 - 关键日志完整性:检查
rkhunter --check或clamscan --infected /var/log/(若有部署),并确认auditd服务运行且规则加载正常(auditctl -l | wc -l > 0)










