用 net/http 暴露指标端点需注册 /metrics 路径到默认或独立 servemux,避免 handler 内耗时操作;优先读 /proc/self/status 获取 rss、结合 /proc/self/stat 计算 cpu 使用率;使用 prometheus/client_golang 时全局单次注册,动态场景用私有 registry。

怎么用 net/http 暴露指标端点而不阻塞主逻辑
Go 的 HTTP 服务器默认是同步阻塞的,但指标采集本身不该拖慢业务请求。直接在主 http.ListenAndServe 里注册指标 handler 是可行的,但要注意别让指标逻辑(比如读取 /proc/stat)卡住整个服务。
实操建议:
立即学习“go语言免费学习笔记(深入)”;
- 用独立的
http.ServeMux或直接复用默认 mux,注册路径如/metrics即可,无需额外 goroutine 启动新 server - 指标 handler 内部避免调用耗时操作:不要在 handler 里做磁盘 I/O、网络请求或复杂计算;CPU/内存等基础指标应从
runtime或/proc快速读取后立即返回 - 如果用了第三方库如
prometheus/client_golang,它自带线程安全和缓存机制,直接调用promhttp.Handler()就行,不用自己加锁 - 别在 handler 里 panic —— Go HTTP 默认会 recover 并返回 500,但日志可能被吞掉;加一层 defer + log 更稳妥
采集 CPU 和内存时为什么 runtime.ReadMemStats 不够用
runtime.ReadMemStats 只反映 Go runtime 自己管理的堆内存,不包括 OS 级别的 RSS、共享库、线程栈等。监控“服务器负载”时,用户真正关心的是整体进程占用,不是 GC 堆大小。
实操建议:
立即学习“go语言免费学习笔记(深入)”;
- Linux 下优先读
/proc/self/statm(页数)和/proc/self/status(VmRSS字段),转成 MB 输出,更贴近 top 看到的 RES - CPU 使用率不能只靠
runtime.NumCgoCall或runtime.NumGoroutine推断;得对比两次/proc/self/stat中的utime+stime差值与系统总 jiffies 差值来算百分比 - 别每秒都重读 /proc —— 频繁 syscalls 有开销;可以每 2–5 秒采样一次,指标端点返回最近一次快照即可
- 注意
/proc文件在容器里依然有效,但数值是宿主机视角还是容器 cgroup 视角,取决于挂载方式;Docker/K8s 默认已隔离,一般没问题
用 prometheus/client_golang 时怎么避免重复注册错误
常见错误现象:panic: duplicate metrics collector registration attempted。本质是同一个 Collector 被 prometheus.MustRegister 多次,比如在热重载或测试中反复初始化。
实操建议:
立即学习“go语言免费学习笔记(深入)”;
- 全局指标(如
cpu_usage_percent)只在init()或main()开头注册一次,别放在 handler 或请求路径里 - 如果要动态增删指标(比如按模块开关),用
prometheus.NewRegistry()创建私有 registry,再用promhttp.HandlerFor(reg, promhttp.HandlerOpts{})绑定,不碰默认 registry - 自定义 Collector 实现
Describe()和Collect()时,Describe必须吐出确定的*Desc,且不能每次 new 不同指针 —— 否则会被判为重复 - 测试时用
prometheus.NewPedanticRegistry(),它会对注册行为做更强校验,提前暴露问题
本地调试时 curl /metrics 返回空或 404 怎么快速定位
不是代码没写,而是路由没挂上、server 没启、或 handler 写错了路径。先确认最基础的连通性,再查逻辑。
实操建议:
立即学习“go语言免费学习笔记(深入)”;
- 启动后立刻
curl -v http://localhost:8080/healthz(随便一个已知存在的路径),看是否通;不通就检查http.ListenAndServe是否被 defer 或 panic 拦截了 - 确认注册语句在
http.HandleFunc或http.Handle调用之后、ListenAndServe之前;顺序反了等于没注册 - 路径区分大小写,
/Metrics≠/metrics;Prometheus 官方约定全小写 - 如果用了 gorilla/mux 或其他路由库,得显式调用
r.Handle("/metrics", promhttp.Handler()),而不是默认 mux;漏这步就会 404
指标采集本身不难,难的是把“进程真实资源消耗”映射成人能看懂、监控系统能抓取、线上跑着不掉链子的那几十行代码。尤其是 /proc 解析和 registry 生命周期,容易在本地测不出,上线后才冒泡。










