客观下线(odown)需多个哨兵通过gossip协议交换信息并达成quorum共识;quorum是sentinel.conf中配置的最小同意数,非哨兵总数,设为1则退化为主观下线;哨兵间通过sentinel is-master-down-by-addr命令探测,超时未响应将导致无法凑够quorum;gossip异步、无中心、带超时,不保证强一致,以换取快速故障发现与低带宽开销;验证odown应使用sentinel masters检查flags是否含odown,而非仅依赖+sdown日志。

Redis哨兵怎么判断一个主节点客观下线
客观下线(ODOWN)不是单个哨兵拍板决定的,而是多个哨兵在交换信息后达成的共识。关键在于:quorum 配置值是否被满足——即至少有多少个哨兵也认为该主节点已不可达。
常见错误现象:+sdown 日志满天飞,但始终不见 +odown;或者明明主节点挂了,哨兵却迟迟不切换。这通常是因为哨兵之间通信失败、quorum 设置不合理,或部分哨兵无法连接到其他哨兵。
-
quorum是哨兵配置里的一个整数,写在sentinel.conf中,比如sentinel monitor mymaster 127.0.0.1 6379 2,末尾的2就是它 - 这个值不等于哨兵总数,也不要求“大多数”,只是最小同意人数;设为
1就退化成主观下线,失去容错意义 - 哨兵之间靠定期发送
SENTINEL is-master-down-by-addr命令互相询问,响应结果计入各自对主节点的状态判断 - 如果某个哨兵长期收不到其他哨兵响应(比如网络分区),它就无法凑够
quorum,也就无法升级为主观下线 → 客观下线
为什么Gossip协议在这里不保证强一致性
哨兵用的不是 Paxos 或 Raft,而是一种简化版 Gossip:异步、无中心、带超时。这意味着状态同步有延迟,且不同哨兵看到的“世界”可能短暂不一致。
使用场景:跨机房部署时,网络抖动频繁,强一致会拖慢故障发现速度,甚至引发脑裂。Gossip 换取的是更快的主观下线(+sdown),再靠 quorum 控制客观下线节奏。
- Gossip 不广播全量状态,只传摘要(比如“我认为 master X 已下线”),所以带宽压力小,但状态收敛慢
- 每个哨兵本地维护一个
down-after-milliseconds计时器,超时未收到 master 心跳就标记sdown,但不会立刻通知别人 - 真正触发 Gossip 传播的是
is-master-down-by-addr请求——它由哨兵定时发起,或在收到其他哨兵的类似请求后被动响应 - 没有全局时钟,各哨兵的“下线时间点”可能差几百毫秒,所以不能依赖时间戳做精确排序
如何验证当前哨兵集群是否达成客观下线
别只盯日志,直接查哨兵状态最可靠。核心命令是 SENTINEL masters 和 SENTINEL sentinels <master-name></master-name>,它们返回结构化数据,比日志更准。
常见错误现象:看到 +sdown 就以为快切主了,结果等半天没动静;或者 failover 后发现新主又被降级,说明客观下线其实没稳住。
- 执行
redis-cli -p 26379 SENTINEL masters,检查返回中flags字段是否含odown(不是sdown) - 若显示
"num-other-sentinels":1但quorum设的是2,说明当前哨兵只知道 1 个同伴,凑不够票数 - 用
SENTINEL sentinels mymaster查其他哨兵连接状态,看last-hello-message是否在合理时间范围内(比如 - 注意:哨兵端口(默认
26379)必须能被其他哨兵双向访问,防火墙常在这里卡住 Gossip 流量
quorum 设多少才安全
设太小(如 1)等于放弃共识机制;设太大(如等于哨兵总数)会让客观下线过于保守,尤其在滚动升级或临时网络抖动时容易僵住。
性能 / 兼容性影响:这个值只参与内存中的布尔判断,不涉及磁盘或网络开销,但错误设置会直接导致 failover 失效或误触发。
- 生产环境推荐
quorum = N/2 + 1(N 是正常工作的哨兵数),比如 3 个哨兵设2,5 个设3 - 如果哨兵跨三个可用区部署,建议至少每区 1 个,并把
quorum设为2,避免单可用区故障就失联 - 不要把哨兵和 Redis 实例混部在同一台机器上——主机宕机时会同时丢失数据节点和决策节点,
quorum再合理也没用 - 每次修改
quorum后需SENTINEL reset <master-name></master-name>手动重置状态,否则旧判断逻辑仍残留
客观下线的本质是“足够多的人看见了同一个事实”,但 Gossip 不保证所有人同时看见。最容易被忽略的是:哨兵之间的连通性检查往往比主从链路还弱,而它恰恰是共识的前提。










