用TimeUnit和Thread.sleep()实现指数退避重试,初始延迟100ms、5次上限、加±10%抖动,用System.nanoTime()超时,白名单判断可重试异常(如SocketTimeoutException),穿透getCause(),恢复InterruptedException状态,避免Spring Retry与Resilience4j冲突。

Java里怎么写一个带指数退避的重试器
直接上结论:用 java.util.concurrent.TimeUnit 控制间隔,用循环 + Thread.sleep() 实现退避逻辑,别碰 Timer 或 ScheduledExecutorService —— 它们会让重试上下文丢失、异常难以捕获,还容易和业务线程耦合。
核心是「每次失败后等更久一点」,公式一般是:baseDelay * (2 ^ attempt),但必须加随机抖动(jitter),否则大量请求会在同一时刻重试,打垮下游。
- 初始延迟建议设为
100L毫秒,抖动范围取 ±10%(即乘以0.9 ~ 1.1的随机因子) - 最大尝试次数建议硬限制在
5次以内,再往上失败概率陡增,不如快速失败 - 别用
System.currentTimeMillis()做超时判断,改用System.nanoTime(),避免系统时间被 NTP 调整导致误判
如何安全地捕获并分类重试异常
不是所有异常都该重试。比如 NullPointerException 是代码 bug,IllegalArgumentException 是参数错误,重试毫无意义;而 SocketTimeoutException、IOException、SQLException(特定 SQL 状态码如 "08S01")才值得重试。
推荐用白名单机制,而不是黑名单。因为可重试异常类型少且稳定,新增类型容易漏;而不可重试的异常每天都在冒出来。
立即学习“Java免费学习笔记(深入)”;
- 用
instanceof判断比字符串匹配e.getClass().getName()更可靠,避免类加载器差异问题 - 对
SQLException,必须检查e.getSQLState(),不能只看e.getMessage(),不同数据库返回的提示文本差异很大 - 如果封装了自定义异常(如
RemoteCallException),记得在构造时把原始异常设为 cause,并在重试判断逻辑中用getCause()向下穿透一层
为什么不要在 retry 逻辑里吞掉 InterruptedException
吞掉 InterruptedException 是最常见也最危险的坑。一旦线程被中断,你却在 catch 里只打日志或什么也不做,就等于告诉 JVM「我已放弃响应中断」——这会让上层无法优雅关闭线程池、无法及时释放资源。
正确做法只有一种:立即恢复中断状态,并让调用方决定是否退出重试。
- 在
catch(InterruptedException e)块里必须调用Thread.currentThread().interrupt() - 不要在重试循环里用
while(true),改用while (!Thread.currentThread().isInterrupted()) - 如果重试器被用于 Web 请求场景(如 Spring MVC 的
@Controller),中断可能来自客户端断连,这时候继续重试就是在浪费服务器资源
Spring Boot 用户绕不开的坑:@Retryable 和 Resilience4j 的冲突
Spring Retry 的 @Retryable 注解和 Resilience4j 的 Retry 不兼容。两者都依赖 AOP,但织入顺序和代理层级打架,经常出现「注解生效了但退避没走」或者「重试次数对不上」。
更麻烦的是,Spring Retry 默认不支持 jitter,它的 ExponentialBackOffPolicy 是纯数学计算,没有随机扰动,压测时容易触发雪崩。
- 如果项目已用 Resilience4j,就彻底删掉
spring-retry依赖,哪怕只是 test scope 里有也不行 - Resilience4j 的
RetryConfig.custom().maxAttempts(3).waitDuration(Duration.ofMillis(200))只设基础延迟,真正的指数退避要靠intervalFunction配置,例如IntervalFunction.ofExponentialBackoff(200, 2.0) - 别信文档里写的「自动 jitter」,Resilience4j 5.x 之前版本默认关 jitter,必须显式调用
.enableJitter(0.1)
真正难的不是写对指数公式,而是判断哪次失败该重试、哪次该立刻熔断、哪次该记录指标并告警。这些边界往往藏在业务语义里,没法靠通用库解决。










