
数据库连接失败时自动重试,关键不是“多试几次”,而是要控制重试时机、次数和退出条件,避免雪崩或长时间阻塞。
重试前先判断是否值得重试
不是所有失败都该重试。比如账号密码错误、数据库服务彻底宕机、权限不足等,重试毫无意义,反而浪费资源。应优先识别可恢复的临时性错误:
- 网络超时(如 MySQL 的 2002、2013 错误):常见于瞬时网络抖动或服务短暂不可达
- 连接数满(如 MySQL 的 1040 错误):说明服务尚在运行,只是负载高
- 拒绝连接(如 Connection refused):可能服务刚启动中,稍后可达
PHP 中可通过 $pdo->errorCode() 或捕获 PDOException 的 $e->getCode() 和 $e->getMessage() 提取错误码做分类判断。
指数退避 + 随机抖动,避免重试风暴
连续快速重试会加剧数据库压力,尤其在集群或多个应用同时出问题时。推荐使用带抖动的指数退避策略:
立即学习“PHP免费学习笔记(深入)”;
- 第 1 次失败后等待 100ms
- 第 2 次失败后等待 200–400ms(200ms × 2 ± 10% 抖动)
- 第 3 次等待 400–600ms,依此类推
- 最大等待不超过 1s,总重试不超过 3–5 次
示例逻辑片段(PDO 场景):
$attempts = 0;
$maxAttempts = 3;
$baseDelayMs = 100;
<p>while ($attempts < $maxAttempts) {
try {
$pdo = new PDO($dsn, $user, $pass, $options);
break; // 成功则退出循环
} catch (PDOException $e) {
$errorCode = $e->getCode();
if (!in_array($errorCode, ['2002', '2013', '1040'])) {
throw $e; // 不可重试错误,立即抛出
}
$attempts++;
if ($attempts >= $maxAttempts) throw $e;</p><pre class='brush:php;toolbar:false;'> $delay = (int)($baseDelayMs * pow(2, $attempts - 1));
$jitter = rand(-$delay / 10, $delay / 10); // ±10% 抖动
usleep(($delay + $jitter) * 1000);
}}
重试需绑定上下文,不污染业务逻辑
不要在每个 DAO 方法里重复写重试代码。建议封装为可复用的连接工厂或装饰器:
- 提供
retryingPdo($dsn, $user, $pass, $options, $retryConfig)工厂函数 - 或基于 PDO 扩展一个
RetryablePDO类,覆盖__construct和prepare(若需语句级重试) - 将重试配置(次数、延迟、白名单错误码)集中管理,便于灰度和动态调整
业务层只需调用 $pdo = RetryablePDO::connect(...),无需感知重试细节。
记录日志并暴露监控指标
每次重试都应记录 warn 级日志,包含:尝试次数、错误码、耗时、最终是否成功。这对定位稳定性问题至关重要:
- 若某接口重试率持续 > 5%,说明底层依赖异常,需告警
- 若重试后仍失败,日志需包含原始异常堆栈,方便回溯
- 可导出 Prometheus 指标如
db_connect_retry_total{type="mysql",success="false"}
避免静默重试——看似“变稳定”了,实则掩盖了真实故障。











