全冗余需双活HAProxy+Keepalived动态同步、多维健康探测防脑裂、配置统一管理、端到端切换验证。关键在消除单点、状态同步、避免VIP漂移与SNAT异常,确保故障切换静默可测。

HAProxy + Keepalived 是构建 Web 层高可用架构的经典组合:HAProxy 负责七层负载均衡与健康检查,Keepalived 提供 VIP(虚拟 IP)漂移和节点故障自动切换。要真正实现“全冗余”,关键不在组件堆叠,而在于消除单点、同步状态、避免脑裂、并让故障切换可预测、可验证。
双机热备不是全冗余,双活+多实例才是
仅部署一主一备 HAProxy + Keepalived,仍存在单点风险——比如后端真实服务器池配置不一致、SSL 证书未同步、ACL 规则更新遗漏,或 Keepalived 自身因网络抖动误判导致 VIP 频繁漂移。真正的全冗余需满足:
- 两台 HAProxy 均长期运行、同时处理流量(非 standby 状态),通过会话保持或一致性哈希分摊连接,而非纯主备
- 后端服务注册到服务发现(如 Consul 或 Nacos),HAProxy 动态更新 server 列表,避免静态配置滞后
- Keepalived 启用 vrrp_sync_group,将多个 VRRP 实例(如不同业务 VIP)绑定为组,确保 VIP 同步升降,防止部分 VIP 漂移而其他滞留
- 所有配置文件(haproxy.cfg、keepalived.conf)通过 Git + Ansible 统一管理,每次变更自动校验语法、推送并重载,杜绝手动操作差异
防脑裂:VRRP 优先级 + 多路径检测必须落地
Keepalived 默认只依赖 VRRP 报文心跳,一旦中间交换机故障或网卡丢包,极易触发双主(脑裂)。必须叠加多维度健康探测:
- 在 vrrp_instance 中启用 track_script,调用自定义脚本检测 HAProxy 进程存活、端口监听、以及能否成功代理一个真实后端请求(例如 curl -s http://127.0.0.1/health | grep ok)
- 配置 track_interface,监控物理网卡(如 eth0)和 bond 接口(如 bond0)的链路状态,任一关键接口 down 即降权
- 设置 nopreempt(从节点不抢占)+ priority 差值 ≥ 50,避免网络恢复瞬间频繁抢主;主节点 weight 设为 100,从节点设为 40,脚本失败时扣减 60,确保必然降为 backup
HAProxy 配置必须适配高可用语义
默认 HAProxy 配置面向单机,直接套用在双机 VIP 架构中会放大故障影响:
- 禁用 stats socket(或改用 TCP socket + 访问控制),避免本地 reload 时 socket 文件被锁,导致另一节点无法热重载
- server 行必须带 check inter 2000 rise 2 fall 3,且配合 option httpchk GET /health HTTP/1.1,确保后端异常时秒级摘除,而非等超时累积
- frontend 中启用 http-request set-var(req.x-real-ip) hdr(x-forwarded-for) 和 capture request header X-Forwarded-For len 15,保障日志与应用层能还原真实客户端 IP
- global 段配置 maxconn 8000、nbproc 2、cpu-map auto:1/2-4,合理利用多核,避免单进程成为瓶颈
切换验证不能只看 VIP,要测端到端链路
运维常误以为 keepalived 日志显示 “Transition to MASTER STATE” 就代表切换成功。实际必须验证三层连通性、四层端口可达、七层业务响应:
- 写一个轻量检查脚本:ping VIP → telnet VIP 80 → curl -I --connect-timeout 3 http://VIP/health,任一环节超时即告警
- 模拟主节点宕机(systemctl stop keepalived),观察从节点接管时间(建议 ≤ 3s),同时抓包确认 ARP 刷新、客户端 TCP 连接是否被重置(理想情况应无感知重连)
- 在后端服务日志中确认请求来源 IP 变为新主节点的 real IP(非 VIP),排除 SNAT 配置错误导致回包路径异常
- 定期执行 chaos engineering:随机 kill -9 haproxy 进程、拔网线、封禁 VRRP 组播端口(224.0.0.18),检验系统韧性
不复杂但容易忽略——全冗余不是装完两个软件就自动生效,而是靠配置细节、检测逻辑和验证闭环来兑现的。每一次切换,都该是一次静默的交接,而不是一次惊动监控的事件。










