Polly通过重试与断路器策略组合提升系统弹性:先用指数退避重试应对瞬时故障,再由断路器防止持续失败引发雪崩,配合回调监控和降级机制实现稳定调用。

在分布式系统中,网络不稳定、服务暂时不可用很常见。Polly 是一个强大的 .NET 弹性与瞬态故障处理库,它能帮你优雅地应对这些情况。断路器(Circuit Breaker)和重试(Retry)是其中最常用也最关键的两个策略,它们不是互斥的,而是经常组合使用:先重试几次,若仍失败则触发断路器,快速失败并暂停请求,避免雪崩。
重试策略:自动应对短暂故障
重试适用于那些可能因网络抖动、数据库连接瞬时超时等导致的短暂失败。Polly 支持多种重试方式,比如固定间隔、指数退避(推荐),还能根据异常类型决定是否重试。
- 用 WaitAndRetryAsync 实现指数退避重试,例如最多重试 3 次,每次等待时间翻倍(100ms → 200ms → 400ms)
- 只对特定异常(如 HttpRequestException 或自定义的 TransientException)重试,避免对 404 或 500 这类业务错误反复调用
- 可在每次重试前记录日志或更新 UI 状态,方便排查和用户体验优化
断路器策略:防止级联失败
当某项依赖持续失败(比如 5 次中有 4 次超时),断路器会从“关闭”状态切换到“开启”,直接拒绝后续请求,不再发起真实调用。经过一段“熔断时间”后进入“半开启”状态,允许一次试探性请求,成功则恢复,失败则重新熔断。
- 配置 CircuitBreakerAsync 时需指定失败阈值(如 handledEventsAllowedBeforeBreaking: 4)和熔断持续时间(如 durationOfBreak: TimeSpan.FromMinutes(1))
- 断路器默认只捕获异常,但也可配合 ResultPolicy 对返回值(如 HTTP 503 响应)做熔断判断
- 注意:断路器本身不重试,它只是“开关”,常和重试策略嵌套使用(重试内部包裹断路器,或反过来)
组合使用:重试 + 断路器 = 更强弹性
实际项目中,推荐把重试放在断路器内部——即先尝试重试逻辑,若重试后仍失败,再由断路器统计失败次数。这样既利用了重试缓解瞬时问题,又通过断路器保护下游和自身资源。
- 用 PolicyWrapAsync 将多个策略按执行顺序包装,例如:wrap = Policy.WrapAsync(retryPolicy, circuitBreakerPolicy)
- 调用时统一用 wrap.ExecuteAsync(...),Polly 自动按顺序应用策略
- 记得为每个策略命名(.WithPolicyKey("MyApiRetry")),便于监控和诊断
实战小提示:别忘了监控与降级
策略生效了,但你得知道它什么时候被触发。Polly 提供 onBreak、onReset、onHalfOpen 等回调,可记录日志、发告警或推送指标到 Prometheus。
- 断路器开启时,可返回缓存数据、默认值或调用备用服务(降级逻辑),而不是直接抛异常
- 避免在高并发下所有请求同时撞上刚恢复的半开启状态,可用 AdvancedCircuitBreaker 配合采样率控制试探请求数量
- 本地开发时可通过 Policy.NoOpAsync() 临时禁用策略,方便调试
基本上就这些。断路器和重试不是银弹,关键在于合理配置阈值、时间和异常范围,并结合可观测性一起落地。用对了,系统稳定性会明显提升。










