Linux高可用部署实践_主备切换流程

冷漠man

发布时间：2026-03-19 12:49:03

831人浏览过

来源于php中文网

原创

主备切换核心是资源接管、状态同步和故障确认三环节。需验证心跳连通、数据同步、VIP权限与服务依赖；手动切换按DRBD降级/升级、挂载、启服务、漂移VIP步骤执行；自动切换须防脑裂、设冷却期并告警；切换后须评估回切、校验数据、固化配置。

linux高可用部署实践_主备切换流程

主备切换的核心逻辑

主备切换不是简单地“把服务从A机器搬到B机器”，而是围绕资源接管、状态同步和故障确认三个环节展开。关键在于确保备机在接管时拥有最新数据、服务配置一致、且不会出现双主冲突。

切换前必须验证的几件事

切换失败多数源于准备不足，以下检查项缺一不可：

心跳链路连通性：确保主备节点间的心跳网络（如专用网卡或VRRP通道）双向可达，ping和tcpdump抓包验证无丢包、无延迟突增；
数据同步状态：若使用DRBD、MySQL半同步复制或PostgreSQL流复制，需确认备机已追平主库（如drbd-overview显示UpToDate/UpToDate，MySQL执行SHOW SLAVE STATUS\G中Seconds_Behind_Master = 0）；
VIP绑定权限与冲突：检查备机是否具备绑定虚拟IP（VIP）的权限（如net_admin能力或sudo ip addr可用），并确认VIP当前未在其他节点残留（ip addr show | grep [VIP]）；
服务依赖完整性：备机上相关服务（如数据库、中间件、挂载的共享存储）必须已安装、配置正确、且处于inactive或disabled状态（避免自动启动干扰切换流程）。

手动触发主备切换的标准步骤

适用于计划内维护或故障确认后的主动切换，以Keepalived+DRBD+PostgreSQL为例：

Boba.video

AI动漫视频生成器

下载

在主机执行drbdadm secondary all，将DRBD设备降级为Secondary；
在备机执行drbdadm primary all，提升为Primary，并等待同步完成（cat /proc/drbd确认角色与连接状态）；
在备机挂载DRBD设备（如mount /dev/drbd0 /data），启动PostgreSQL（systemctl start postgresql）；
在备机运行keepalived -D -f /etc/keepalived/keepalived.conf（或重启keepalived服务），触发VIP漂移；
验证：从客户端连接VIP，执行SELECT pg_is_in_recovery();应返回f（表示已为主库），同时检查应用日志是否正常写入。

自动切换的风险控制要点

自动切换省事但易误触发，务必设置合理阈值与人工干预机制：

多路径健康检测：不只依赖单个ping检测，应组合使用进程存活（kill -0 $(cat /var/run/postgres.pid)）、端口可连（nc -z localhost 5432）、SQL探活（psql -U health_check -c "SELECT 1"）；
脑裂防护（fencing）必须启用：如STONITH（Shoot The Other Node In The Head），通过IPMI、SSH或电源管理强制隔离疑似故障节点，防止双主写入；
切换冷却时间（Cooldown）：设置至少60秒间隔，避免因瞬时抖动频繁切换；
切换后自动告警与人工确认：每次VIP漂移或资源转移必须触发短信/钉钉通知，并记录完整日志（含时间戳、节点名、检测项结果），供事后审计。

切换后必做的三件事

切换完成不等于高可用闭环，收尾动作决定系统是否真正稳定：

回切评估：原主机恢复后，先检查硬件、日志、数据一致性，再决定是否回切——多数场景建议保持当前主备关系，避免反复震荡；
数据校验：对关键表执行CHECKSUM TABLE（MySQL）或pg_checksums --check（PostgreSQL），确认切换期间无静默损坏；
配置固化：更新Ansible清单、CMDB或配置中心中的主节点标识，同步DNS记录（如有），避免后续自动化任务仍指向旧主。

Linux系统下针对数据库进程的透明大页THP优化建议

Linux开机卡在某服务_启动卡死问题排查

Linux系统文件系统挂载点选择对系统启动性能的影响分析

Linux系统源码包编译安装过程详解及库文件路径配置技巧

Linux系统用户密码复杂度策略设置及PAM模块配置入门教程

相关标签:

linux 运维服务器 linux 自动化

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Linux连接数过多_TCP连接状态分析方法下一篇：Linux系统中线程安全函数与非线程安全函数识别指南

作者最新文章

如何解决Nginx编译报错：缺少头文件与库文件的排查指南

2026-03-17 13:49

如何验证Nginx编译结果：二进制文件检查与版本确认实战

2026-03-17 13:53

Java this 在构造方法链调用中的必须位置要求

2026-03-17 13:59

Java int long float double 的取值范围对比

2026-03-17 14:01

Linux系统端口扫描工具Nmap与Nc检测端口开放状态对比

2026-03-17 14:04

SQL报表分区统计缓存_分区缓存机制

2026-03-17 14:07

poki游戏免费玩入口地址_Poki官网免费游戏在线秒玩快速入口

2026-03-17 14:16

JavaScript异步函数async与await的语法糖本质

2026-03-17 14:17

Linux下TCP连接Reset报文产生场景及抓包排查案例分析

2026-03-17 14:47

如何利用 Gemini 识别旧照片并描述场景？重温回忆的 AI 方式

2026-03-17 14:54

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

服务器是什么

服务器是一种计算机硬件设备或软件程序，它具有强大的计算和存储能力，用请求、存储数据和提供服务。它在互联网中着关重要的作用，为用户提供各种服务和资源。本专题为大家提供服务器相关的文章、下载、课程内容，供大家免费下载体验。

191

2023.08.15

连接apple id服务器时出错

连接apple id服务器时出错的原因包括网络连接问题、服务器问题、Apple ID账户问题、设备问题、防火墙或安全软件问题、时间和日期设置问题、Apple服务器维护等。本专题为大家提供apple id相关的文章、下载、课程内容，供大家免费下载体验。

444

2023.09.08

搭建互联网服务器

搭建互联网服务器需要：1、选择合适的硬件和操作系统，第一步是选择合适的硬件和操作系统；2、安装和配置操作系统，是搭建互联网服务器的关键步骤；3、安装和配置服务器软件，是搭建互联网服务器的下一步，常见的服务器软件包括Apache、Nginx、Tomcat等；4、配置防火墙和安全性，是搭建互联网服务器的重要步骤；5、域名解析和配置，是搭建互联网服务器的最后一步。

217

2023.09.19

如何查看服务器状态

查看服务器状态的方法有使用命令行工具、图形界面工具、监控工具、日志文件和远程管理工具等。本专题为大家提供服务器状态相关的文章、下载、课程内容，供大家免费下载体验。

184

2023.10.09

服务器域名转接慢怎么解决

服务器域名转接慢的解决办法有DNS优化、服务器优化、CDN加速、前端优化和网络优化等。本专题为大家提供服务器相关的文章、下载、课程内容，供大家免费下载体验。

2023.10.17

服务器评测软件

服务器评测软件有PassMark Software、CPU-Z、GPU-Z、CrystalDiskMark、IOmeter、JMeter、LoadRunner、Apache Bench等等。详细介绍：1、PassMark Software是一款综合性的服务器性能测试软件，可以评估服务器在各种负载条件下的性能；2、CPU-Z是一款可以提供服务器CPU详细信息的软件等等。

2023.10.17

如何开启TFTP服务器

开启TFTP服务器的步骤包括选择TFTP服务器软件、下载和安装软件、配置TFTP服务器以及启动和测试服务器等。本专题为大家提供服务器相关的文章、下载、课程内容，供大家免费下载体验。

121

2023.10.18

服务器负载不兼容怎么解决

解决方法：1、增加服务器资源；2、负载均衡；3、优化应用程序；4、增加缓存机制；5、分布式架构；6、限流和熔断；7、自动化扩容。想知道更详细服务器负载不兼容的解决方法，可以访问本专题下面的文章。

122

2023.10.20

Go Web框架Gin接口开发与中间件设计实践

本专题围绕 Go 在 Web 后端开发中的主流框架 Gin 展开，系统讲解高性能接口开发与中间件机制设计。内容涵盖路由分组、请求绑定、参数校验、统一响应封装、日志与鉴权中间件实现，以及接口限流与异常处理策略。通过实战项目案例，帮助开发者构建结构清晰、性能优良的 Go Web 服务体系，提升接口开发效率与系统可维护性。

2026.03.19

热门下载

网站特效

网站源码

网站素材

前端模板