通过zap记录错误日志并在中间件中捕获panic;2. 使用OpenTelemetry注入trace_id实现链路追踪;3. 上报error_count至Prometheus并用Sentry收集异常;4. 实现/health接口与告警规则,结合Alertmanager通知。

在Golang中实现微服务错误监控,关键是捕获、记录、上报并可视化运行时错误。一套完整的方案应包含错误捕获、日志记录、链路追踪和告警机制,确保问题可发现、可定位、可响应。
1. 统一错误处理与日志记录
使用结构化日志库(如 logrus 或 zap)记录错误信息,便于后续分析。
在每个服务入口(如HTTP Handler或gRPC方法)中添加中间件,捕获未处理的panic和错误。
示例:使用 zap 记录错误import "go.uber.org/zap"func initLogger() *zap.Logger { logger, _ := zap.NewProduction() return logger }
func errorHandler(next http.HandlerFunc) http.HandlerFunc { return func(w http.ResponseWriter, r *http.Request) { defer func() { if err := recover(); err != nil { logger.Error("Panic recovered", zap.Any("error", err), zap.String("path", r.URL.Path)) http.Error(w, "Internal Server Error", 500) } }() next(w, r) } }
2. 集成链路追踪(Tracing)
使用 OpenTelemetry 或 Jaeger 跟踪请求链路,在错误发生时能快速定位源头。
立即学习“go语言免费学习笔记(深入)”;
为每个请求生成唯一 trace ID,并在日志中携带该ID,实现跨服务关联。
关键点:- 在中间件中注入 trace context
- 将 trace_id 注入日志字段
- 通过 OTel Collector 上报到后端(如 Jaeger 或 Tempo)
3. 错误上报至监控系统
将严重错误实时上报到监控平台,如 Prometheus + Alertmanager 或 Sentry。
- 使用 Prometheus 暴露 error_count 指标,配合 Grafana 展示趋势
- 对于可恢复错误,增加计数器;对于致命错误,触发告警
- 使用 Sentry SDK 直接上报异常堆栈(支持 Go)
import "github.com/getsentry/sentry-go"sentry.Init(sentry.ClientOptions{ Dsn: "your-dsn", })
// 在 panic 或错误时发送 sentry.CaptureException(err) sentry.Flush(2 * time.Second)
4. 健康检查与告警
实现 /health 接口供探针调用,结合 Kubernetes Liveness Probe 及时重启异常实例。
配置告警规则,例如:
- 5xx 错误率超过 1% 持续 5 分钟
- 某服务平均延迟突增 3 倍
- 日志中出现关键字 "panic" 或 "timeout"
通过 Prometheus Alertmanager 发送邮件、钉钉或企业微信通知。
基本上就这些。核心是让错误“看得见”,从单机日志到分布式追踪再到集中告警,形成闭环。不复杂但容易忽略细节。










