主备切换核心是资源接管、状态同步和故障确认三环节。需验证心跳连通、数据同步、VIP权限与服务依赖;手动切换按DRBD降级/升级、挂载、启服务、漂移VIP步骤执行;自动切换须防脑裂、设冷却期并告警;切换后须评估回切、校验数据、固化配置。

主备切换的核心逻辑
主备切换不是简单地“把服务从A机器搬到B机器”,而是围绕资源接管、状态同步和故障确认三个环节展开。关键在于确保备机在接管时拥有最新数据、服务配置一致、且不会出现双主冲突。
切换前必须验证的几件事
切换失败多数源于准备不足,以下检查项缺一不可:
-
心跳链路连通性:确保主备节点间的心跳网络(如专用网卡或VRRP通道)双向可达,
ping和tcpdump抓包验证无丢包、无延迟突增; -
数据同步状态:若使用DRBD、MySQL半同步复制或PostgreSQL流复制,需确认备机已追平主库(如
drbd-overview显示UpToDate/UpToDate,MySQL执行SHOW SLAVE STATUS\G中Seconds_Behind_Master = 0); -
VIP绑定权限与冲突:检查备机是否具备绑定虚拟IP(VIP)的权限(如
net_admin能力或sudo ip addr可用),并确认VIP当前未在其他节点残留(ip addr show | grep [VIP]); -
服务依赖完整性:备机上相关服务(如数据库、中间件、挂载的共享存储)必须已安装、配置正确、且处于
inactive或disabled状态(避免自动启动干扰切换流程)。
手动触发主备切换的标准步骤
适用于计划内维护或故障确认后的主动切换,以Keepalived+DRBD+PostgreSQL为例:
- 在主机执行
drbdadm secondary all,将DRBD设备降级为Secondary; - 在备机执行
drbdadm primary all,提升为Primary,并等待同步完成(cat /proc/drbd确认角色与连接状态); - 在备机挂载DRBD设备(如
mount /dev/drbd0 /data),启动PostgreSQL(systemctl start postgresql); - 在备机运行
keepalived -D -f /etc/keepalived/keepalived.conf(或重启keepalived服务),触发VIP漂移; - 验证:从客户端连接VIP,执行
SELECT pg_is_in_recovery();应返回f(表示已为主库),同时检查应用日志是否正常写入。
自动切换的风险控制要点
自动切换省事但易误触发,务必设置合理阈值与人工干预机制:
-
多路径健康检测:不只依赖单个ping检测,应组合使用进程存活(
kill -0 $(cat /var/run/postgres.pid))、端口可连(nc -z localhost 5432)、SQL探活(psql -U health_check -c "SELECT 1"); - 脑裂防护(fencing)必须启用:如STONITH(Shoot The Other Node In The Head),通过IPMI、SSH或电源管理强制隔离疑似故障节点,防止双主写入;
- 切换冷却时间(Cooldown):设置至少60秒间隔,避免因瞬时抖动频繁切换;
- 切换后自动告警与人工确认:每次VIP漂移或资源转移必须触发短信/钉钉通知,并记录完整日志(含时间戳、节点名、检测项结果),供事后审计。
切换后必做的三件事
切换完成不等于高可用闭环,收尾动作决定系统是否真正稳定:
- 回切评估:原主机恢复后,先检查硬件、日志、数据一致性,再决定是否回切——多数场景建议保持当前主备关系,避免反复震荡;
-
数据校验:对关键表执行
CHECKSUM TABLE(MySQL)或pg_checksums --check(PostgreSQL),确认切换期间无静默损坏; - 配置固化:更新Ansible清单、CMDB或配置中心中的主节点标识,同步DNS记录(如有),避免后续自动化任务仍指向旧主。










