通过监控cpu、内存、磁盘、服务和网络状态,及时发现linux系统异常;2. 编写自动恢复脚本,检测磁盘空间、重启mysql服务、恢复网络连接并记录日志;3. 使用cron每5分钟执行脚本,实现周期性检查;4. 集成邮件或消息通知,确保管理员掌握恢复情况。

当Linux系统出现异常,如服务崩溃、磁盘满载或网络中断时,手动处理效率低且响应不及时。构建自动恢复机制能显著提升系统稳定性。核心思路是通过监控关键指标,结合自动化脚本实现故障检测与自我修复。
1. 监控关键系统状态
自动恢复的前提是准确识别异常。常用监控项包括:
- CPU使用率过高:持续超过90%可能表示进程失控
- 内存耗尽:可用内存低于100MB时可能触发OOM
- 磁盘空间不足:根分区使用率超90%需预警
- 关键服务停止:如nginx、mysql等进程不存在
- 网络不可达:无法访问网关或外部主机
可使用ps、df、free、systemctl is-active等命令获取状态。
2. 编写自动恢复脚本
以下是一个基础的恢复脚本示例(save_system.sh):
#!/bin/bash
LOG="/var/log/recovery.log"
echo "$(date): 开始检查系统状态" >> $LOG
<h1>检查磁盘空间</h1><p>if [ $(df / | tail -1 | awk '{print $5}' | sed 's/%//') -gt 90 ]; then
echo "$(date): 警告:根分区使用超90%" >> $LOG</p><h1>可选:清理临时文件</h1><p>find /tmp -type f -mtime +7 -delete
fi</p><h1>检查MySQL服务</h1><p>if ! systemctl is-active --quiet mysql; then
echo "$(date): MySQL服务已停止,尝试重启" >> $LOG
systemctl restart mysql
sleep 3
if ! systemctl is-active --quiet mysql; then
echo "$(date): MySQL重启失败,请人工介入" >> $LOG
fi
fi</p><h1>检查网络连通性</h1><p>if ! ping -c 2 8.8.8.8 &> /dev/null; then
echo "$(date): 网络断开,尝试重启网络" >> $LOG
systemctl restart network
fi</p>3. 设置定时任务执行
使用cron定期运行脚本:
- 编辑定时任务:crontab -e
- 添加一行:*/5 * * * * /path/to/save_system.sh
这表示每5分钟执行一次检测,可根据实际需求调整频率。
4. 日志记录与通知
在脚本中加入邮件或消息通知,便于及时掌握恢复情况:
# 示例:发送邮件(需配置mailx) echo "系统恢复事件: $(tail -n 5 $LOG)" | mail -s "服务器告警" admin@example.com
基本上就这些。脚本应根据具体环境定制,避免误判和过度操作。测试阶段建议先输出日志而非直接执行动作,确保逻辑正确。稳定后可逐步启用自动修复功能。










