0

0

Linux NFD(Node Feature Discovery)的 GPU / RDMA 标签自动发现

舞夢輝影

舞夢輝影

发布时间:2026-02-14 21:35:14

|

464人浏览过

|

来源于php中文网

原创

nfd-worker默认不发现gpu和rdma设备,因其插件需在configmap中显式启用且依赖驱动、工具及内核模块就绪;标签生成有延迟,且调度需匹配精确的字符串型标签。

linux nfd(node feature discovery)的 gpu / rdma 标签自动发现

为什么 nfd-worker 默认不发现 GPU 和 RDMA 设备

因为 NFD 的默认配置只启用基础硬件特征(如 CPU 架构、内核版本),GPU 和 RDMA 属于可选插件,需要显式开启。不改配置的话,kubectl get nodes -o wide 里压根看不到 feature.node.kubernetes.io/pci-xxxfeature.node.kubernetes.io/rdma.available 这类标签。

实操建议:

  • 确认 nfd-worker Pod 正在运行且日志无 failed to load plugin "gpu" 类报错:
    kubectl logs -n nfd nfd-worker-xxxxx
  • 编辑 ConfigMap nfd-worker-conf,在 featureSources 列表中加入 "gpu""rdma"
  • 确保节点上已安装对应驱动:NVIDIA 驱动(非 CUDA Toolkit)、rdma-core 包、且 ibstatnvidia-smi 命令可用

nfd-worker 启用 GPU 插件后仍没打标签的常见原因

不是开了插件就自动生效——GPU 插件依赖 /proc/driver/nvidia/gpus/ 下存在设备目录,且要求 nvidia-smi 可执行、返回非错误码。任意一环断掉,插件静默跳过,日志里可能只有一行 skipping gpu feature source: no devices found

实操建议:

  • nfd-worker 容器手动验证:
    ls /proc/driver/nvidia/gpus/ && nvidia-smi -L
    ,二者必须都成功
  • 若用容器运行时(如 containerd),检查 nfd-worker 是否挂载了 /dev/nvidiactl/dev/nvidia-uvm 等设备节点(否则 nvidia-smi 会失败)
  • 部分云厂商实例(如 AWS p3)需额外加载 nvidia-fs 模块,否则 /proc/driver/nvidia/ 为空

RDMA 标签没出现?先看 ibstat 和内核模块

RDMA 插件只认 ibstat 命令输出,不解析 ibv_devinfo 或 sysfs。如果 ibstat 找不到、返回空、或提示 No HCAs found,插件直接放弃,连日志都不多打一行。

LOVO AI
LOVO AI

AI人声和文本转语音生成工具

下载

实操建议:

  • 在节点上运行 ibstat;失败则装 rdma-core 工具包(Ubuntu/Debian 用 apt install rdma-core,RHEL/CentOS 用 yum install rdma-core
  • 确认 ib_uverbsib_coremlx5_core(或对应网卡驱动)已加载:
    lsmod | grep -E "(ib_|mlx)"
  • NFD 不会自动加载内核模块,必须由管理员提前配置好,否则插件看到的是“没硬件”

标签打上了但 Pod 没法调度到带 GPU/RDMA 的节点

标签本身只是“声明”,真正起作用的是你写的 nodeSelectornodeAffinity。NFD 加的标签名是固定的,比如 GPU 是 feature.node.kubernetes.io/pci-10de.present(10de 是 NVIDIA PCI vendor ID),写错一个字符就匹配不上。

实操建议:

  • kubectl get node xxx -o jsonpath='{.metadata.labels}' | jq 确认实际打出的标签名,别凭记忆写
  • RDMA 相关标签有多个层级,常用的是 feature.node.kubernetes.io/rdma.available(布尔值)和 feature.node.kubernetes.io/pci-15b3.present(Mellanox)
  • 注意 label value 类型:GPU 插件写的是 "true"(字符串),不是 true(布尔),nodeSelector 里必须用引号

最常被忽略的一点:NFD 的标签更新有延迟,从插件识别到标签出现在 Node 对象上,可能隔 30–60 秒。别刚改完配置就立刻查,等一小会儿再 kubectl get node

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

531

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

214

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1552

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

640

2023.11.24

java读取文件转成字符串的方法
java读取文件转成字符串的方法

Java8引入了新的文件I/O API,使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java,可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中,你需要将文件路径替换为你的实际文件路径,并且可能需要处理可能的IOException异常。想了解更多java的相关内容,可以阅读本专题下面的文章。

885

2024.03.22

php中定义字符串的方式
php中定义字符串的方式

php中定义字符串的方式:单引号;双引号;heredoc语法等等。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

836

2024.04.29

go语言字符串相关教程
go语言字符串相关教程

本专题整合了go语言字符串相关教程,阅读专题下面的文章了解更多详细内容。

185

2025.07.29

c++字符串相关教程
c++字符串相关教程

本专题整合了c++字符串相关教程,阅读专题下面的文章了解更多详细内容。

89

2025.08.07

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

76

2026.02.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 9.1万人学习

Git 教程
Git 教程

共21课时 | 3.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号