如何处理备库在RECOVER状态时重启服务器_自动恢复脚本与实例启动过程配置

P粉602998670

发布时间：2026-03-12 07:05:13

772人浏览过

来源于php中文网

原创

备库卡在RECOVER状态的根本原因是恢复进程未完成即退出，因recovery.signal存在时PostgreSQL不阻塞主进程等待恢复结束，常见于restore_command失败、WAL不可达、systemd超时或recovery.signal残留等场景。

备库启动卡在 `RECOVER` 状态，根本原因是实例没等恢复完就退出

postgresql 备库（standby）重启后卡在 recover 状态，不是坏了，而是主进程被信号中断或配置不当导致恢复中途退出。关键点在于：postgresql 启动时若检测到 recovery.signal 文件存在，会以只读方式进入恢复流程；但这个过程默认不阻塞主进程等待完成——一旦恢复线程出错、wal 不可得、或 pg_ctl start 超时返回，主进程可能直接退出，留下一个“活着但没真正启动成功”的实例。

常见错误现象：pg_is_in_recovery() 返回 true，但 ps aux | grep postgres 显示 postmaster 进程已消失；日志里反复出现 could not locate a valid checkpoint record 或 WAL segment ... has already been removed。

确保 postgresql.conf 中 archive_mode = on 且 restore_command 可稳定执行（比如用 cp /path/to/archivedir/%f %p 或带重试的脚本）
recovery_target_timeline = 'latest' 必须显式设置，否则遇到时间线切换时可能停在旧 timeline 上不动
避免把 pg_ctl start 塞进 systemd service 时加 --wait 却没配 Type=notify，这会导致超时后强制 kill

自动恢复脚本必须区分“启动”和“等待恢复完成”两个阶段

很多脚本把 pg_ctl start 和 “确认备库可用”混在一起，结果一启动就返回，根本不知道 WAL 是否追上。正确做法是分两步走：先确保 postmaster 起来并监听端口，再轮询 pg_is_in_recovery() 直到返回 false（或达到最大等待时间）。

使用场景：CI/CD 部署、K8s initContainer、Ansible playbook 中的 post-task 检查。

用 pg_ctl -D /path/to/data start 启动，不加 -w（它只等 postmaster 进程就绪，不等恢复完成）
随后用 pg_is_in_recovery() 查询，建议配合 timeout 300s bash -c 'until pg_is_in_recovery; do sleep 5; done' 类逻辑
如果用 psql -c "select pg_is_in_recovery();"，注意连接参数要带 -U 和 -d postgres，否则可能连到主库或报 database "postgres" does not exist

systemd 服务中 `Type=notify` 和 `ExecStartPost` 的配合容易漏掉

PostgreSQL 12+ 支持通过 systemd-notify 告知 systemd “我真准备好了”，但默认不启用。如果只写 Type=simple，systemd 会在 pg_ctl start 返回后立刻认为服务启动成功——哪怕此时 WAL 还差 10 分钟才追平。

Sesame AI

一款开创性的语音AI伴侣，具备先进的自然对话能力和独特个性。

下载

性能影响：没有 Type=notify，上游依赖该服务的组件（如 HAProxy、Patroni）可能过早转发流量，导致只读查询失败或延迟飙升。

在 .service 文件中设 Type=notify，并在 postgresql.conf 加 systemd_notify = on
用 ExecStartPost=/bin/sh -c 'until pg_is_in_recovery; do sleep 3; done' 做最终确认，但别放太久（避免阻塞整个系统启动）
不要在 ExecStart 里直接调用带轮询的 shell 脚本——systemd 会把它当主进程，一旦轮询结束就认为服务退出

`recovery.signal` 文件残留或缺失导致状态误判

这是最隐蔽也最高频的问题：服务器重启后，recovery.signal 文件还在，但归档路径变了、restore_command 权限不对、或 primary_conninfo 指向已下线的主库。PostgreSQL 会尝试恢复，失败后静默退出，日志里只有一行 shutting down due to recovery failure，然后你就看到实例“卡在 RECOVER”。

兼容性注意：PG 12+ 把 recovery.conf 参数全挪进 postgresql.conf，但 recovery.signal 文件仍必须存在才能触发 standby 模式。

每次重启前检查 recovery.signal 是否存在，以及 standby.signal（PG 12+ 推荐）是否冲突——两个都存在时行为未定义
用 pg_controldata /path/to/data | grep -E "(Database system identifier|Latest checkpoint location)" 快速确认数据目录是否真的来自同一集群
如果用流复制，primary_conninfo 中的 host= 必须能 DNS 解析且端口可达，别用 localhost —— 容器或跨网段时大概率连不上

真正麻烦的不是脚本怎么写，而是恢复过程中任何一环断开（网络、磁盘、权限、时间线跳变），都会让备库停在“半恢复”状态，而这个状态本身不报错也不退出，得靠外部主动探测才能发现。

相关专题

线程和进程的区别

线程和进程的区别：线程是进程的一部分，用于实现并发和并行操作，而线程共享进程的资源，通信更方便快捷，切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

765

2023.08.10

location.assign

在前端开发中，我们经常需要使用JavaScript来控制页面的跳转和数据的传递。location.assign就是JavaScript中常用的一个跳转方法。通过location.assign，我们可以在当前窗口或者iframe中加载一个新的URL地址，并且可以保存旧页面的历史记录。php中文网为大家带来了location.assign的相关知识、以及相关文章等内容，供大家免费下载使用。

232

2023.06.27

oracle清空表数据

当表中的数据不需要时，则应该删除该数据并释放所占用的空间。本专题为大家提供oracle清空表数据的相关文章，帮助大家解决该问题。

271

2023.08.16

Oracle中declare的使用

Oracle DECLARE语句是PL/SQL编程语言中用于声明变量、常量、游标或异常的关键字。它的主要作用是在程序中定义这些对象，以便在后续的代码中使用。DECLARE语句的语法简单明了，可以根据需要声明多个对象。通过使用这些声明的对象，可以进行各种操作，如计算、查询数据库、处理异常等。

221

2023.09.15

oracle怎么分页

实现分页的步骤：1、使用ROWNUM进行分页查询；2、在执行查询之前进行设置分页参数；3、使用"COUNT(*)"函数来获取总行数，并使用"CEIL"函数来向上取整计算总页数；4、在外部查询中使用"WHERE"子句来筛选出特定的行号范围，以实现分页查询。想了解更多oracle怎么分页的文章，可以来阅读本专题先的文章。

245

2023.09.18

Oracle查看表操作历史记录

查看操作历史记录的方法：1、使用Oracle内置的审计功能，可以记录数据库中发生的各种操作，包括登录、DDL语句、DML语句等；2、使用Oracle日志文件，其中包含了数据库中发生的各种操作，可以通过查看日志文件来获取操作历史记录；3、使用Oracle的Flashback功能，可以查看数据库在某个时间点的操作历史记录；4、使用第三方工具等。本专题还提供其他查看表操作的文章，大家可以免费阅读。

463

2023.09.19

Oracle中RAC的用法

Oracle中RAC的用法：1、通过在多个服务器上运行数据库实例来提供高可用性；2、允许在需要时增加或减少节点数量；3、通过将工作负载分布到多个节点上来实现负载均衡；4、使用共享存储来实现多个节点之间的数据共享；5、允许多个节点同时处理数据库请求，从而实现并行处理；6、提供了透明故障切换功能；7、使用了一些技术来确保数据的一致性；8、提供了管理工具来简化RAC环境的管理和维护。本专题还提供RAC相关的其他文章，大家可以免费阅读。

450

2023.09.19

oracle imp

imp是Oracle数据库中的一个命令行工具，用于将导出的数据和对象从一个数据库实例导入到另一个数据库实例。imp命令的一般语法为“imp username/password@connect_string file=file_name [options]”。

341

2023.09.19

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

热门下载

网站特效

网站源码

网站素材

前端模板