file sd配置文件必须是utf-8(无bom)编码的json数组,每个元素为含targets(字符串数组)和labels(字符串键值对)字段的target对象;c#应使用system.text.json序列化并原子替换写入。

文件服务发现(File SD)配置文件长什么样
Prometheus 的 file_sd_configs 期望读取的是 JSON 数组,每个元素是一个 target 对象,带 labels 和 targets 字段。不是随便写个 IP 列表就能用——它必须是合法 JSON,且结构固定。
-
targets是字符串数组,比如["10.0.1.22:9182"],不能是单个字符串或带空格的字符串 -
labels是对象,键值都必须是字符串,比如{"job": "windows_exporter", "env": "prod"} - 整个文件必须是顶层 JSON 数组,不能包在
{"data": [...]}里,也不能多出逗号(尤其末尾) - 文件编码必须是 UTF-8(无 BOM),否则 Prometheus 启动时可能静默失败或报
invalid character
C# 生成合法 File SD 文件的关键操作
别用 string.Format 或拼接 JSON 字符串——容易漏转义、错逗号、缺引号。直接用 System.Text.Json 序列化最稳。
- 定义匹配的 C# 类型:一个
TargetGroup类,含public string[] targets { get; set; }和public Dictionary<string string> labels { get; set; }</string> - 用
JsonSerializerOptions开启WriteIndented = true(便于调试),但生产环境可关掉提升性能 - 写入前先序列化到内存(
JsonSerializer.Serialize),再整体写入文件,避免写一半崩溃导致 JSON 残缺 - 务必调用
File.WriteAllText(path, json, new UTF8Encoding(encoderShouldEmitUTF8Identifier: false))—— 显式禁用 BOM
示例片段:
var tg = new TargetGroup
{
targets = new[] { "192.168.1.100:9100" },
labels = new() { ["job"] = "node", ["region"] = "cn-east" }
};
var json = JsonSerializer.Serialize(new[] { tg }, options);
File.WriteAllText("targets.json", json, new UTF8Encoding(false));
为什么每次更新都要原子替换,不能直接 File.WriteAllText
Prometheus 每 5 秒(默认)轮询一次文件,如果写入中途被读取,会解析到截断或格式错误的 JSON,触发 error loading file: invalid character 并丢弃该文件内容——目标就消失了,但你完全看不到告警。
- 正确做法:生成临时文件(如
targets.json.tmp),写完后用File.Move(tmpPath, finalPath, true)原子覆盖 - Windows 下
Move是原子的;Linux/macOS 需确保 tmp 和 final 在同一文件系统(同挂载点),否则退化为拷贝+删除 - 不要用
Delete + Create,中间存在窗口期,Prometheus 可能读到“文件不存在”而清空目标列表
Job 名和 labels 设计不当会导致指标混乱
job 标签决定 Prometheus 中的 job 维度,一旦设错,所有基于 job 的聚合(如 up{job="xxx"})就失效;重复的 job 值会让多个 target 被归到同一个 job 下,掩盖真实拓扑。
- 避免硬编码
"job": "myapp"—— 应从配置或环境提取,比如按部署环境区分:"job": $"myapp-{env}" - 慎用动态 label 如
"host_ip":如果 IP 频繁变化,会造成大量 time series churn,增加存储和查询压力 - 若需标识实例唯一性,优先用稳定的标识(如主机名、容器 ID),并确保它不随重启/漂移改变
- 所有 label 值必须是合法 Prometheus label value:不能含空格、换行、控制字符;建议用正则
^[a-zA-Z0-9_:.]+$过滤
文件 SD 看似简单,但 Prometheus 不校验内容语义,只管 JSON 结构和字段名。错一个引号、多一个逗号、label 值含空格,都会让一批 target 彻底消失,而且日志里往往只有模糊的解析错误——得盯着 prometheus_target_sync_length_seconds 和 prometheus_target_sync_failed_total 才能定位。










