Keepalived在高可用架构下的日志分析与故障排查

舞夢輝影

发布时间：2026-03-16 13:19:27

350人浏览过

来源于php中文网

原创

Keepalived日志是定位高可用异常的核心依据，需重点关注状态变更（如“Transition to MASTER STATE”）、健康检查失败原因（如timeout、503）及脑裂线索（如“Cant receive advert”），日志默认输出至/var/log/messages或syslog，可通过log_facility和log_level优化。

keepalived在高可用架构下的日志分析与故障排查

Keepalived 日志是定位高可用切换异常、VIP 漂移失败、脑裂或健康检查失灵等问题的核心依据。关键不在于日志量多少，而在于快速识别 状态变更记录、检查失败原因 和 进程级警告。

关注核心日志位置与输出级别

Keepalived 默认将日志写入 /var/log/messages（RHEL/CentOS）或 /var/log/syslog（Debian/Ubuntu），不单独建日志文件。若需更细粒度追踪，需在 keepalived.conf 的 global_defs 块中显式配置：

log_facility LOCAL0–LOCAL7：指定 syslog 设施，便于通过 rsyslog 过滤分流
log_level 3–6：数值越大越详细（3=WARNING，4=NOTICE，5=INFO，6=DEBUG）；生产环境建议设为 4 或 5，避免 DEBUG 级别淹没关键信息

识别典型状态变更与切换事件

Keepalived 主进程状态变化会以明确关键词打点，需重点筛查以下字段：

OpenJobs AI

AI驱动的职位搜索推荐平台

下载

"Transition to MASTER STATE" 或 "Entering MASTER STATE"：本节点升主成功，后续应有 "VRRP_Instance(xxx) Sending gratuitous ARPs" 表明 ARP 通告发出
"Transition to BACKUP STATE"：主动降备或被更高优先级节点抢占，需结合前序日志看是否因权重变化、vrrp_script 失败或收到更高优先级 Advertisement
"VRRP_Instance(xxx) Received higher prio advert"：说明收到邻居通告，触发让权；若频繁出现，检查对方节点是否未正确降备、网络延迟抖动或组播包被丢弃

定位健康检查失败的直接原因

real_server 的存活依赖 vrrp_script 或 TCP/HTTP 检查，失败时日志通常带具体错误码或超时提示：

"(xxx) failed (code=127)"：脚本无法执行（路径错、无执行权限、解释器缺失）
"(xxx) failed (timeout)"：检查超时，优先排查目标端口是否监听、防火墙是否放行、后端服务是否僵死
"(xxx) failed (status code=503)"：HTTP 检查返回非 2xx/3xx，说明服务虽响应但业务异常（如 Nginx 返回 maintenance 页面）
注意：check interval 和 rise/fall 计数 共同决定切换时机；日志中连续多次 "failed" 后才触发 real_server down，勿仅看单次失败

排查脑裂与 VIP 冲突问题

当两个节点同时持有 VIP，大概率是 VRRP 通信中断且 failover 逻辑失效。日志线索包括：

持续出现 "VRRP_Instance(xxx) Cant receive advert"：组播收包失败，检查网卡是否 UP、multicast group（224.0.0.18）是否被交换机过滤、iptables 是否 DROP 了 VRRP 协议（IPPROTO_VRRP / protocol 112）
MASTER 节点日志无任何 "Received advert" 记录，BACKUP 节点却显示 "Entering MASTER STATE"：说明 MASTER 实际已宕机但未释放 VIP，或 BACKUP 因网络隔离误判升主
用 tcpdump -i eth0 ip proto 112 抓包验证 VRRP 包双向可达性，比单纯看日志更可靠

相关标签:

nginx 架构 var 事件 transition apache http tcpdump ubuntu centos debian

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Apache中主备架构在Java企业级应用中的容灾实践下一篇：暂无

作者最新文章

SQL并发更新冲突排查_行锁竞争与锁等待分析

2026-03-14 14:28

Nginx利用TCP代理实现Redis集群高可用转发

2026-03-14 14:31

Nginx针对视频资源开启TCP_nopush优化传输

2026-03-14 14:37

Docker仓库公有云集成与企业级镜像管理实践

2026-03-14 14:43

GitHub 命令行怎么用？GitHub CLI 基本操作说明

2026-03-14 14:47

MacOS系统df命令在多版本系统并存时卷组识别

2026-03-14 14:55

Windows运维中手动注册域控相关DNS记录的命令操作

2026-03-14 15:16

DockerDaemon日志滚动策略与磁盘溢出预防

2026-03-14 15:20

JavaScript中Boolean布尔值的逻辑判断与转换规则

2026-03-14 15:23

Java中Apache基础架构中请求处理链的模块化流转

2026-03-14 15:26

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

nginx 重启

nginx重启对于网站的运维来说是非常重要的，根据不同的需求，可以选择简单重启、平滑重启或定时重启等方式。本专题为大家提供nginx重启的相关的文章、下载、课程内容，供大家免费下载体验。

248

2023.07.27

nginx 配置详解

Nginx的配置是指设置和调整Nginx服务器的行为和功能的过程。通过配置文件，可以定义虚拟主机、HTTP请求处理、反向代理、缓存和负载均衡等功能。Nginx的配置语法简洁而强大，允许管理员根据自己的需要进行灵活的调整。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

522

2023.08.04

nginx配置详解

NGINX与其他服务类似，因为它具有以特定格式编写的基于文本的配置文件。本专题为大家提供nginx配置相关的文章，大家可以免费学习。

610

2023.08.04

tomcat和nginx有哪些区别

tomcat和nginx的区别：1、应用领域；2、性能；3、功能；4、配置；5、安全性；6、扩展性；7、部署复杂性；8、社区支持；9、成本；10、日志管理。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

245

2024.02.23

nginx报404怎么解决

当访问 nginx 网页服务器时遇到 404 错误，表明服务器无法找到请求资源，可以通过以下步骤解决：1. 检查文件是否存在且路径正确；2. 检查文件权限并更改为 644 或 755；3. 检查 nginx 配置，确保根目录设置正确、没有冲突配置等等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

738

2024.07.09