go标准库log不适合错误收集,因其无堆栈、无结构化字段、无法分级过滤,且log.fatal会跳过defer和panic恢复,导致上下文丢失。

Go 标准库 log 为什么不适合错误收集
标准 log 包默认只输出到 stderr 或文件,不带堆栈、无结构化字段、无法分级过滤,且 log.Fatal 会直接调用 os.Exit(1),跳过 defer 和 panic 恢复逻辑——这意味着你根本收不到它触发前的上下文。
常见误用:log.Printf("failed to open file: %v", err) 只留错误值,没调用位置;log.Fatal(err) 导致服务静默退出,监控抓不到 exit 原因。
- 必须手动加
runtime.Caller才能拿到文件/行号,但易出错(层级偏移常写成 2 或 4) - 所有日志都是字符串拼接,无法被 ELK 或 Loki 原生解析字段(如
service=api error_code=500) - 并发写同一
*log.Logger实例时,多 goroutine 输出可能混行(虽有锁,但性能差、不可控)
用 zerolog 记录带堆栈的结构化错误日志
zerolog 是 Go 生态最轻量且生产就绪的结构化日志库,错误收集关键在两点:自动注入调用栈 + 支持 error 类型字段序列化。
示例写法:
立即学习“go语言免费学习笔记(深入)”;
import (
"github.com/rs/zerolog"
"github.com/rs/zerolog/log"
)
func doSomething() error {
_, err := os.Open("missing.txt")
if err != nil {
// 自动包含 file:line、stack、error type
log.Error().Err(err).Str("action", "load_config").Send()
return err
}
return nil
}
-
.Err(err)不仅序列化错误文本,还会尝试调用err.(interface{ Unwrap() error })展开嵌套错误,并附加stack字段(需启用zerolog.ErrorStackMarshaler) - 避免手写
fmt.Sprintf("%+v", err)—— 这只会打印堆栈字符串,无法被结构化解析 - 若用
log.Logger.With().Stack().Logger(),可为某段逻辑统一开启堆栈捕获,但注意性能损耗(每次调用都走runtime.Caller)
配合 panic 恢复做全局错误兜底
HTTP handler 或 goroutine 中未捕获的 panic 会导致进程崩溃,但 recover() 后的日志若仍用标准 log,就丢失了原始 panic 上下文。正确做法是:在顶层 recover 处用结构化 logger 记录,并显式提取 stack trace。
典型实现:
func recoverMiddleware(next http.Handler) http.Handler {
return http.HandlerFunc(func(w http.ResponseWriter, r *http.Request) {
defer func() {
if r := recover(); r != nil {
// 使用 zerolog 捕获 panic 并记录完整 stack
log.Error().
Interface("panic", r).
Str("path", r.URL.Path).
Stack(). // 显式加 stack 字段
Send()
}
}()
next.ServeHTTP(w, r)
})
}
- 别用
fmt.Print(string(debug.Stack()))—— 这生成的是纯文本,无法被日志系统结构化解析字段 -
Stack()必须在defer内部调用,否则拿到的是 recover 函数自己的调用栈 - 某些错误(如
nil pointer dereference)panic 时r是runtime.Error接口,需用fmt.Sprintf("%+v", r)配合zerolog.Interface()才能保留原始信息
日志采集端要注意的兼容性细节
即使 Go 端输出了 JSON 日志,如果采集器(如 Filebeat、Promtail)配置不当,仍会当普通文本处理,丢弃所有字段。
- Promtail 配置中必须设
pipeline_stages.json,否则{ "level":"error", "error":"no such file" }被当单行字符串,查error字段会失败 - Filebeat 的
json.keys_under_root: true要打开,否则字段全在json.*下,Kibana 里得写json.error : "no such file" - 零值字段(如
user_id=null)在部分旧版 Loki 中会被忽略,建议用zerolog.NestedObjectEncoder避免空字段,或在采集层做字段补全
真正难的不是打日志,而是确保从 runtime.Caller 到 promtail → loki → grafana 这条链路上,每一环都认得出哪个字段是错误主体、哪个是堆栈、哪个是业务维度标签——漏掉任意一环,排查时就得翻源码猜。










