Go 的 net.DefaultResolver 默认不重试 DNS 查询,遇到 UDP 超时或临时错误(如 i/o timeout、no route to host)直接返回错误;需手动封装带指数退避重试的 Resolver,并注意 PreferGo 与 systemd-resolved 的兼容性问题。

Go 的 net.DefaultResolver 默认不重试 DNS 查询
Go 标准库的 DNS 解析默认走系统配置(/etc/resolv.conf),但关键点在于:net.DefaultResolver 在遇到 UDP 超时或 NXDOMAIN 以外的临时错误(比如 read: no route to host、i/o timeout)时,**不会自动重试**——它直接把底层错误原样抛出。网络抖动常表现为短暂的 UDP 包丢弃或响应延迟,此时你拿到的是 context.DeadlineExceeded 或 read: connection refused,而不是明确的 DNS 失败。
实操建议:
立即学习“go语言免费学习笔记(深入)”;
- 别依赖默认解析器扛抖动,显式构造带重试逻辑的
net.Resolver - 用
WithContext控制单次查询超时(建议 ≤ 2s),避免卡住整个 HTTP 请求 - 重试次数建议 2–3 次,间隔用指数退避(如 100ms → 300ms),避免雪崩
手动实现带退避重试的 DNS 查询
标准库没提供开箱即用的重试 resolver,得自己封装。核心是捕获常见临时错误并区分重试条件——不是所有错误都该重试(比如 No such host 就不该)。
实操建议:
立即学习“go语言免费学习笔记(深入)”;
- 检查错误是否属于可重试类型:
strings.Contains(err.Error(), "timeout")、errors.Is(err, syscall.ECONNREFUSED)、errors.Is(err, syscall.ENETUNREACH) - 跳过明确不可重试的错误:
err.(*net.DNSError).IsNotFound == true、err.(*net.DNSError).IsTemporary == false - 示例片段:
func resolveHost(ctx context.Context, host string) ([]net.IP, error) { r := &net.Resolver{ PreferGo: true, Dial: func(ctx context.Context, network, addr string) (net.Conn, error) { d := net.Dialer{Timeout: 2 * time.Second} return d.DialContext(ctx, network, addr) }, } for i := 0; i < 3; i++ { ips, err := r.LookupIPAddr(ctx, host) if err == nil { return ipsToIPs(ips), nil } if !isRetryableDNSError(err) { return nil, err } if i == 2 { return nil, err } time.Sleep(time.Duration(math.Pow(1.5, float64(i))) * 100 * time.Millisecond) } return nil, errors.New("DNS resolve failed after retries") }
HTTP 客户端层面如何隔离 DNS 抖动影响
如果你用 http.Client 发请求,DNS 错误会直接变成 Get \"https://...\": dial tcp: lookup example.com: no such host 这类错误。但默认的 http.Transport 不缓存 DNS 结果,每次请求都重新查——抖动时可能连续失败。
实操建议:
立即学习“go语言免费学习笔记(深入)”;
- 给
http.Transport配一个自定义Resolver,复用上面写的重试 resolver - 开启 DNS 缓存:设置
Transport.DialContext+net.Resolver,并利用net.Resolver.LookupIPAddr返回的 TTL 做内存缓存(注意并发安全) - 避免全局共享一个
http.Client实例去扛高并发 DNS 查询,可按域名分组缓存 resolver 实例
别忽略 PreferGo 和 systemd-resolved 的兼容性问题
Go 的 PreferGo: true 表示绕过系统 libc 的 getaddrinfo,用 Go 自己的解析器。这在容器或某些 Linux 发行版(比如启用了 systemd-resolved 的 Ubuntu)上可能失效——因为 Go 解析器不读 systemd-resolved 的 socket,只读 /etc/resolv.conf,而后者可能指向 127.0.0.53 这个本地 stub,导致解析失败或延迟飙升。
实操建议:
立即学习“go语言免费学习笔记(深入)”;
- 在容器中部署时,优先用
PreferGo: false,让 Go 走系统解析(需确保镜像里有完整libc和正确resolv.conf) - 若必须用 Go 解析器,检查
/etc/resolv.conf是否真实指向可用 nameserver(比如8.8.8.8),而非本地 stub 地址 - 用
dig +short example.com @8.8.8.8对比验证解析路径是否一致
复杂点在于:DNS 抖动错误类型杂、重试边界难界定、缓存 TTL 和实际网络稳定性不匹配——这些没法靠一个开关解决,得结合日志里真实的错误码、目标环境的解析链路、以及业务对延迟的容忍度来调。










