Linux NFD（Node Feature Discovery）的 GPU / RDMA 标签自动发现

舞夢輝影

发布时间：2026-02-14 21:35:14

464人浏览过

来源于php中文网

原创

nfd-worker默认不发现gpu和rdma设备，因其插件需在configmap中显式启用且依赖驱动、工具及内核模块就绪；标签生成有延迟，且调度需匹配精确的字符串型标签。

linux nfd（node feature discovery）的 gpu / rdma 标签自动发现

为什么 `nfd-worker` 默认不发现 GPU 和 RDMA 设备

因为 NFD 的默认配置只启用基础硬件特征（如 CPU 架构、内核版本），GPU 和 RDMA 属于可选插件，需要显式开启。不改配置的话，kubectl get nodes -o wide 里压根看不到 feature.node.kubernetes.io/pci-xxx 或 feature.node.kubernetes.io/rdma.available 这类标签。

实操建议：

确认 nfd-worker Pod 正在运行且日志无 failed to load plugin "gpu" 类报错：
```
kubectl logs -n nfd nfd-worker-xxxxx
```
编辑 ConfigMap nfd-worker-conf，在 featureSources 列表中加入 "gpu" 和 "rdma"
确保节点上已安装对应驱动：NVIDIA 驱动（非 CUDA Toolkit）、rdma-core 包、且 ibstat 或 nvidia-smi 命令可用

`nfd-worker` 启用 GPU 插件后仍没打标签的常见原因

不是开了插件就自动生效——GPU 插件依赖 /proc/driver/nvidia/gpus/ 下存在设备目录，且要求 nvidia-smi 可执行、返回非错误码。任意一环断掉，插件静默跳过，日志里可能只有一行 skipping gpu feature source: no devices found。

实操建议：

进 nfd-worker 容器手动验证：
```
ls /proc/driver/nvidia/gpus/ && nvidia-smi -L
```
，二者必须都成功
若用容器运行时（如 containerd），检查 nfd-worker 是否挂载了 /dev/nvidiactl、/dev/nvidia-uvm 等设备节点（否则 nvidia-smi 会失败）
部分云厂商实例（如 AWS p3）需额外加载 nvidia-fs 模块，否则 /proc/driver/nvidia/ 为空

RDMA 标签没出现？先看 `ibstat` 和内核模块

RDMA 插件只认 ibstat 命令输出，不解析 ibv_devinfo 或 sysfs。如果 ibstat 找不到、返回空、或提示 No HCAs found，插件直接放弃，连日志都不多打一行。

LOVO AI

AI人声和文本转语音生成工具

下载

实操建议：

在节点上运行 ibstat；失败则装 rdma-core 工具包（Ubuntu/Debian 用 apt install rdma-core，RHEL/CentOS 用 yum install rdma-core）
确认 ib_uverbs、ib_core、mlx5_core（或对应网卡驱动）已加载：
```
lsmod | grep -E "(ib_|mlx)"
```
NFD 不会自动加载内核模块，必须由管理员提前配置好，否则插件看到的是“没硬件”

标签打上了但 Pod 没法调度到带 GPU/RDMA 的节点

标签本身只是“声明”，真正起作用的是你写的 nodeSelector 或 nodeAffinity。NFD 加的标签名是固定的，比如 GPU 是 feature.node.kubernetes.io/pci-10de.present（10de 是 NVIDIA PCI vendor ID），写错一个字符就匹配不上。

实操建议：

用 kubectl get node xxx -o jsonpath='{.metadata.labels}' | jq 确认实际打出的标签名，别凭记忆写
RDMA 相关标签有多个层级，常用的是 feature.node.kubernetes.io/rdma.available（布尔值）和 feature.node.kubernetes.io/pci-15b3.present（Mellanox）
注意 label value 类型：GPU 插件写的是 "true"（字符串），不是 true（布尔），nodeSelector 里必须用引号

最常被忽略的一点：NFD 的标签更新有延迟，从插件识别到标签出现在 Node 对象上，可能隔 30–60 秒。别刚改完配置就立刻查，等一小会儿再 kubectl get node。

Linux tcp_rmem / tcp_wmem 的滑动窗口缓冲区经验值分层（min/default/max）

Linux tar 高效备份与压缩方法

Linux TCP/IP 堆栈调优实战

Linux 系统日志管理与分析方法

Linux Grub 引导配置详解

相关标签:

linux node 架构字符串对象 kubernetes linux ubuntu centos debian

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Linux NetworkManager vs systemd-networkd vs netplan 的现代服务器选型下一篇：暂无

作者最新文章

香香腐宅漫画官网入口香香腐宅漫画最新秒开网址链接

2026-02-13 10:50

俄罗斯引擎YANDEX网站首页 YANDEX搜引擎入口

2026-02-13 11:07

小米手机查询imei码入口_小米手机关于本机IMEI信息查询

2026-02-13 11:23

住房交易个税退税流程图住房交易个税退税怎么操作

2026-02-13 11:48

2026年汽车以旧换新什么时候开始以旧换新政策什么时候结束

2026-02-13 11:49

电脑用户名密码怎么查看

2026-02-13 11:53

中小微企业贷款贴息多少钱一个月中小微企业贷款贴息1.5个百分点

2026-02-13 12:04

IQOO电池健康度多少换电池 IQOO电池健康判断及更换建议

2026-02-13 12:09

崩坏:星穹铁道4.0异相仲裁满星攻略星铁活动平民通关教程

2026-02-13 12:14

Windows注册表编辑 Windows注册表编辑方法与注意事项

2026-02-13 14:30

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

531

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

214

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1552

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

640

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

885

2024.03.22