Golang基础监控上报链路为“采集+打包+发送+可靠性兜底”:每10秒用time.Ticker采集CPU等指标,JSON序列化后HTTP POST推送,含超时、指数退避重试及内存缓存限流,支持context平滑启停。

用 Golang 实现基础监控上报,核心是“采集 + 打包 + 发送 + 可靠性兜底”,不追求大而全,先跑通一条链路:比如每 10 秒采集一次 CPU 使用率,序列化为 JSON,通过 HTTP POST 推送到一个接收端(如本地 mock 服务)。
采集指标:用标准库和轻量第三方包
Go 自带 runtime 和 debug 包可获取内存、Goroutine 数、GC 次数等基础运行时指标;CPU、磁盘、网络等系统级指标建议用 github.com/shirou/gopsutil/v3 —— 它跨平台、模块化(只引入需要的子包,比如 v3/cpu),无 CGO 依赖可选(启用 CGO_ENABLED=0 编译纯静态二进制)。
- 避免轮询阻塞:用
time.Ticker控制定期采集,别用time.Sleep配合 for 循环 - 采集逻辑要加 recover:防止某个指标获取 panic 导致整个采集 goroutine 崩溃
- 首次采集可延迟启动(如
time.AfterFunc(2 * time.Second, startCollecting)),避开程序刚启动时的抖动
数据打包:结构清晰、字段精简
定义统一上报结构体,包含时间戳、主机标识、指标类型、具体数值。不用嵌套过深,不传原始 raw 数据,不带调试字段(如 traceID 除非已集成链路追踪)。
type MetricReport struct {
Timestamp int64 `json:"ts"`
Hostname string `json:"host"`
Type string `json:"type"` // "cpu_usage", "mem_used"
Value float64 `json:"value"`
Tags map[string]string `json:"tags,omitempty"`
}- Timestamp 用
time.Now().UnixMilli()(Go 1.17+),兼容性好且精度够用 - Hostname 建议用
os.Getenv("HOSTNAME")或os.Hostname(),失败时 fallback 到 "unknown" - Tags 字段用于打标(如 env=prod, service=api),空 map 不参与 JSON 序列化(靠
omitempty)
上报传输:HTTP 为主,超时与重试必须有
首选 HTTP POST(JSON 格式),接收端简单、调试方便、防火墙友好。关键不是“发出去”,而是“发得稳”:
立即学习“go语言免费学习笔记(深入)”;
- Client 必须设
Timeout(建议 3~5 秒),避免卡死在慢网关或故障服务上 - 失败后做有限重试(如最多 3 次),每次间隔递增(1s → 2s → 4s),用
backoff库或手写简单指数退避 - 重试期间把失败数据暂存内存队列(
chan MetricReport或带锁 slice),但要限制长度(如最多缓存 1000 条),满则丢弃最老数据 —— 监控数据讲求时效,不追历史
启动与生命周期:支持平滑启停
监控采集应作为独立 goroutine 运行,主程序退出前需通知其停止。用 context.Context 控制生命周期:
- 采集 ticker 启动时接收 cancelable context,收到 cancel 后清空 ticker、等待当前采集完成、刷新缓冲区再退出
- 主函数监听
os.Interrupt或syscall.SIGTERM,触发全局 cancel - 避免在 init() 里启动采集 —— 单元测试或命令行工具复用时难以控制
基本上就这些。不需要接入 Prometheus Exporter 或 OpenTelemetry SDK,先让数据稳定流出去,再考虑聚合、告警、可视化。简单、可控、易调试,才是初期监控落地的关键。










