告警通知中心通过事件驱动解耦触发与通知,用配置化路由分发至多通道,统一接口插件化扩展,辅以traceId审计、失败重试、分级抑制和环境静音等机制保障可靠性。

Java项目里构建告警通知中心,核心是把“什么情况要告警”(触发)和“怎么发出去”(通知)解耦,用统一管道串联起来,避免每个业务模块重复写发短信、推企业微信、写日志的逻辑。
告警触发:定义可复用的告警事件
不直接在业务代码里调用 sendAlert(),而是发布标准事件。推荐用 Spring Event 或轻量级事件总线(如 Guava EventBus):
- 定义告警事件类,如 AlarmEvent,含 level(WARN/ERROR)、code(ALERT_DB_TIMEOUT)、message、tags(env=prod, service=order)、timestamp 等字段
- 业务中只需发布事件:applicationEventPublisher.publishEvent(new AlarmEvent("ALERT_CACHE_MISS", "缓存击穿超阈值", Level.WARN, Map.of("keyCount", "1200")))
- 避免在 if 判断块里硬编码通知方式,保持业务干净
告警路由:按规则分发到不同通知通道
引入配置驱动的路由层,根据事件属性动态决定走哪条通路:
- 用 YAML 配置路由规则,例如:ALERT_DB_SLOW → [wechat:ops-group, sms:dba-oncall];ALERT_DISK_USAGE_HIGH → [dingtalk:infra-alert]
- 实现 AlarmRouter,解析事件 code + level + tags,匹配规则,返回目标通道列表
- 支持降级:当企微不可用时自动 fallback 到邮件或本地日志告警
通知通道:统一接口 + 插件化实现
所有通知方式实现同一接口 NotificationChannel:
立即学习“Java免费学习笔记(深入)”;
- 方法签名如:void send(AlarmEvent event, ChannelConfig config)
- 内置实现:EmailChannel(JavaMail)、WeComChannel(企微机器人 Webhook)、DingTalkChannel(钉钉加签)、SmsChannel(对接云通讯 SDK)、LogChannel(异步写入 ELK 可检索日志)
- 新增通道只需加一个实现类 + 配置项,不改核心流程
可观测与兜底:不只发出去,还要知道发没发成
生产环境必须有反馈闭环:
- 每条告警生成唯一 traceId,记录从触发、路由、各通道发送结果(success/failed/retry)、耗时,写入数据库或发到 Kafka 做审计
- 定时任务扫描超时未确认的高优告警(如 ERROR 级 5 分钟无响应),触发二次通知或升级给值班人
- 提供简单管理页或 Actuator 端点,查最近 100 条告警状态、通道健康度、失败原因(如 token 过期、网络超时)
基本上就这些。不复杂但容易忽略的是:告警去重(同异常 5 分钟内只报一次)、分级抑制(DB 报错时暂时屏蔽其下游服务的连锁告警)、以及开发/测试环境默认静音——这些加在路由或事件构造阶段最自然。










