网络 namespace 残留由容器异常退出等引起,需通过检查 /proc/*/ns/net 引用判断有效性,再用 ip netns delete 安全清理,并配置定时任务与白名单防护。

网络 namespace 残留通常由容器运行时异常退出、脚本中断或未正确销毁 netns 引起,长期积累会导致 ip netns list 输出大量无效条目,影响运维排查甚至某些网络工具行为。自动清理需区分“真实在用”和“已失效”的 netns,不能简单删除所有。
判断 netns 是否真正残留
Linux 中 netns 本质是挂载点(/var/run/netns/xxx),其有效性取决于对应 inode 是否仍被某个进程持有。仅文件存在 ≠ namespace 活跃。可靠判断方式是检查该 netns 文件是否被任何进程的 ns/net 目录引用:
- 对每个
/var/run/netns/*文件,执行find /proc/[0-9]*/ns/net -samefile /var/run/netns/xxx 2>/dev/null | head -n1 - 若无输出,说明无进程引用,可安全清理
- 注意:部分系统用 bind mount 创建 netns,需同时检查
/run/netns/和/var/run/netns/
安全清理脚本核心逻辑
以下为生产可用的清理片段(保存为 /usr/local/bin/clean-stale-netns.sh):
#!/bin/bash NETNS_DIR="/var/run/netns" [ -d "$NETNS_DIR" ] || NETNS_DIR="/run/netns"for ns in "$NETNS_DIR"/*; do [ -f "$ns" ] || continue nsname=$(basename "$ns")
跳过 systemd-resolved 等受管 netns(可按需扩展白名单)
[[ "$nsname" =~ ^(host|docker|k8s|cni-|kube-|calico) ]] && continue if ! find /proc/[0-9]*/ns/net -maxdepth 1 -samefile "$ns" 2>/dev/null | head -n1; then echo "Removing stale netns: $nsname" ip netns delete "$nsname" 2>/dev/null || rm -f "$ns" fi done
关键点:ip netns delete 优先调用(它会做二次校验并卸载),失败再直接删文件;白名单避免误删关键命名空间。
配置定时任务(cron)
以 root 权限添加每日清理任务:
# crontab -e # 每天凌晨 3:15 清理一次 15 3 * * * /usr/local/bin/clean-stale-netns.sh >> /var/log/clean-netns.log 2>&1
建议加日志便于审计;首次运行前手动执行一次确认效果;如环境使用 containerd/CRI-O,可额外加入 runc list --format '{{.ID}}' | xargs -r -n1 nsenter -n -p -r -- /bin/true 2>/dev/null || echo "stale" 辅助交叉验证。
补充防护措施
单靠定时清理是兜底,更应从源头减少残留:
- 容器编排平台(如 Kubernetes)确保 CNI 插件配置了正确的
del超时与重试 - 自研脚本创建 netns 后,务必用
trap 'ip netns delete xxx' EXIT保证异常退出时清理 - 定期用
ls -la /var/run/netns/观察文件 inode 变化趋势,快速识别突发泄漏
不复杂但容易忽略。










