0

0

Linux 集群监控与自动恢复

冰川箭仙

冰川箭仙

发布时间:2026-02-15 14:22:03

|

886人浏览过

|

来源于php中文网

原创

systemd服务自动重启未恢复业务因restart=on-failure不检查实际健康状态;应配合execstartpost健康检查、restartpreventexitstatus防死循环及startlimit限制防雪崩。

linux 集群监控与自动恢复

为什么 systemd 服务自动重启后没真正恢复业务?

因为 Restart=on-failure 只看进程退出码,不检查端口是否监听、API 是否可响应。服务进程起来了,但数据库连不上、配置加载失败、依赖服务没就绪——systemd 完全不管。

实操建议:

  • ExecStartPost= 调用轻量健康检查脚本,比如 curl -sf http://localhost:8080/health | grep ok,失败则 kill $MAINPID
  • [Service] 段加 RestartPreventExitStatus=255,让健康检查失败时退出码 255 不触发重启,避免死循环
  • 别依赖 RestartSec= 硬等时间,改用 StartLimitIntervalSec= + StartLimitBurst= 控制单位时间最大尝试次数,防雪崩

prometheus 抓不到节点指标?先查 node_exporter--no-collector. 参数

默认开启全部采集器,但在某些容器或低配节点上,textfilesystemd 采集器会卡住甚至 crash,导致整个 node_exporter 停止响应 /metrics

实操建议:

  • 启动时显式禁用高风险采集器:--no-collector.textfile --no-collector.systemd
  • 确认 node_exporter 进程监听的是 0.0.0.0:9100,不是 127.0.0.1:9100(后者在 Kubernetes HostNetwork 模式下也抓不到)
  • 在 Prometheus target 页面看具体错误:如果显示 context deadline exceeded,八成是采集器阻塞;如果显示 connection refused,优先查防火墙和 systemctl status node_exporter

集群脑裂时,corosync 日志里反复出现 ERROR [QB] connection failed

这不是网络不通的简单提示,而是 corosync 的 quorum 判定已失效,但 pacemaker 还在尝试同步状态,导致两个子集群各自执行 fencing —— 数据可能被双写破坏。

FlowMuse AI
FlowMuse AI

节点式AI视觉创作引擎

下载

实操建议:

  • 立刻检查 corosync.conf 中的 quorum.provider: 是否为 corosync_votequorum,而不是已废弃的 corosync_quorum
  • 确认所有节点时间同步:用 chronyc tracking 查 offset,>100ms 就可能触发误判
  • 临时规避:在非主子集群节点上运行 pcs cluster stop --all,再逐个 pcs cluster start,强制重新协商 quorum

consul 做服务发现,check.ttl 设太短反而引发抖动

TTL 不是越小越好。设成 5s,意味着每个服务每 5 秒必须上报一次心跳;网络延迟尖峰、GC 暂停、Consul server 负载高,都可能导致漏报,服务瞬间被标记为 critical 并从 DNS/HTTP 接口摘除。

实操建议:

  • check.ttl 设为实际最长健康间隔的 3 倍以上,例如服务心跳稳定在 10s,TTL 至少设 30s
  • 配合 check.interval 使用:它只控制客户端上报频率,不影响 TTL 过期逻辑;两者值可以不同
  • 生产环境禁用 check.http 类主动探测(易受瞬时超时影响),优先用 check.ttl + 客户端主动上报

跨机房部署时,TTL 必须考虑 RTT 波动;单个节点故障不可怕,可怕的是因 TTL 设置失当,把健康节点批量踢出服务列表。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
curl_exec
curl_exec

curl_exec函数是PHP cURL函数列表中的一种,它的功能是执行一个cURL会话。给大家总结了一下php curl_exec函数的一些用法实例,这个函数应该在初始化一个cURL会话并且全部的选项都被设置后被调用。他的返回值成功时返回TRUE, 或者在失败时返回FALSE。

452

2023.06.14

linux常见下载安装工具
linux常见下载安装工具

linux常见下载安装工具有APT、YUM、DNF、Snapcraft、Flatpak、AppImage、Wget、Curl等。想了解更多linux常见下载安装工具相关内容,可以阅读本专题下面的文章。

180

2023.10.30

scripterror怎么解决
scripterror怎么解决

scripterror的解决办法有检查语法、文件路径、检查网络连接、浏览器兼容性、使用try-catch语句、使用开发者工具进行调试、更新浏览器和JavaScript库或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

351

2023.10.18

500error怎么解决
500error怎么解决

500error的解决办法有检查服务器日志、检查代码、检查服务器配置、更新软件版本、重新启动服务、调试代码和寻求帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

327

2023.10.25

硬盘接口类型介绍
硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍:1、IDE接口是一种并行接口,主要用于连接硬盘和光驱等设备,它主要有两种类型:ATA和ATAPI,IDE接口已经逐渐被SATA接口;2、SATA接口是一种串行接口,相较于IDE接口,它具有更高的传输速度、更低的功耗和更小的体积;3、SCSI接口等等。

1442

2023.10.19

PHP接口编写教程
PHP接口编写教程

本专题整合了PHP接口编写教程,阅读专题下面的文章了解更多详细内容。

362

2025.10.17

php8.4实现接口限流的教程
php8.4实现接口限流的教程

PHP8.4本身不内置限流功能,需借助Redis(令牌桶)或Swoole(漏桶)实现;文件锁因I/O瓶颈、无跨机共享、秒级精度等缺陷不适用高并发场景。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2217

2025.12.29

java接口相关教程
java接口相关教程

本专题整合了java接口相关内容,阅读专题下面的文章了解更多详细内容。

37

2026.01.19

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

76

2026.02.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 9.1万人学习

Git 教程
Git 教程

共21课时 | 3.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号