0

0

Linux node-feature-discovery 的 custom rule 与 GPU feature 发现

冰川箭仙

冰川箭仙

发布时间:2026-02-19 17:46:02

|

431人浏览过

|

来源于php中文网

原创

nfd custom rule 不生效的根本原因是 gpu source 未在 configmap 中启用或规则中 source 名不匹配;需确认 nfd-worker-conf 启用 ["cpu","kernel","system","gpu"],重启 worker pod,并确保 rule 文件挂载正确、name 唯一、matchon 路径真实存在。

linux node-feature-discovery 的 custom rule 与 gpu feature 发现

custom rule 不生效,GPU 标签没出现在 Node 上

根本原因通常是 customRules 配置没被 NFD 加载,或者规则里用的 source 不支持 GPU 检测。NFD 默认只启用 cpukernelsystem 等几个 source,gpu source 默认是关闭的,custom rule 里写 source: gpu 却没在 ConfigMap 里打开它,rule 就直接被跳过。

实操建议:

  • 确认 nfd-master 的 ConfigMap(通常是 nfd-worker-conf)里启用了 gpu source:
    source: ["cpu", "kernel", "system", "gpu"]
  • custom rule 的 source 字段必须和已启用的 source 名完全一致,大小写敏感;gpu 不等于 GPU
  • rule 中的 matchOn 条件要匹配真实设备路径,比如 /dev/nvidia0 存在,但 rule 写成 /dev/nvidia1 就不会触发
  • 修改 ConfigMap 后,必须重启 nfd-worker Pod(删掉让它重建),仅重启 master 不生效

想用 custom rule 给不同型号 GPU 打不同 label,但所有节点都打了同一个值

这是因为 NFD 的 gpu source 当前(v0.14+)只提供布尔型特征(feature.node.kubernetes.io/pci-xxx.present),不暴露具体型号或 UUID。custom rule 里用 valueFrom.fieldRefvalueFrom.envVar 是拿不到 GPU 型号字符串的——底层没有这个字段。

实操建议:

  • 别在 custom rule 里试图读取 device.product.name 这类不存在的字段,NFD gpu source 不采集这些
  • 真要区分型号,得自己写脚本查 nvidia-smi -Llspci -nn | grep VGA,然后通过 labeler 工具或自定义 DaemonSet 注入 label
  • 如果只是做“有/无 GPU”分级,用内置的 feature.node.kubernetes.io/pci-10de.present(NVIDIA)就够了,不需要 custom rule

custom rule 加了但 node 上看不到 label,describe node 也没报错

NFD 不报错不等于 rule 被执行了。常见静默失败点:rule 的 name 重复、matchOn 条件永远为 false、或 rule 文件没挂进 nfd-worker 容器的 /etc/kubernetes/node-feature-discovery/rules.d/ 目录。

Skybox AI
Skybox AI

一键将涂鸦转为360°无缝环境贴图的AI神器

下载

实操建议:

  • nfd-worker 容器检查:ls /etc/kubernetes/node-feature-discovery/rules.d/,确认你的 YAML 文件确实在里面且后缀是 .yml.yaml
  • 看 worker 日志:kubectl logs -n nfd nfd-worker-xxxxx | grep -i "rule\|gpu",搜 loadedskipping 关键字
  • rule 的 name 必须全局唯一,重复会导致整个 ruleset 加载失败(但 worker 不 crash,只是静默跳过)
  • matchOn 里用 op: Exists 时,路径必须是文件系统上真实存在的路径,比如 /proc/driver/nvidia/gpus/0000:01:00.0/information,不是所有 NVIDIA 驱动版本都提供这个路径

GPU feature 标签更新延迟,新插卡后要等好几分钟才出现

NFD 的 gpu source 默认每 60 秒轮询一次设备,且依赖 udev 事件触发即时更新。但很多场景下 udev 事件没发出来(比如热插拔未触发 kernel event),或 NFD worker 没监听到,就会卡在旧状态。

实操建议:

  • 调短轮询间隔:在 nfd-worker-conf ConfigMap 中加 sleepInterval: "10s"(注意引号,YAML 要求)
  • 确保宿主机开启了 udev 监听:udevadm monitor --subsystem-match=pci 能看到 GPU 插拔事件,否则 NFD 无法即时响应
  • 避免用 echo 1 > /sys/bus/pci/rescan 强刷——这会触发 kernel 重枚举,但 NFD 不一定立刻感知,反而可能造成短暂不一致

GPU 设备发现本身依赖驱动加载顺序和 udev 规则,custom rule 只是贴标签的最后一步,前面任何一环断了,label 就不会来。别只盯着 rule 文件改。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

573

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

216

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1553

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

640

2023.11.24

java读取文件转成字符串的方法
java读取文件转成字符串的方法

Java8引入了新的文件I/O API,使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java,可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中,你需要将文件路径替换为你的实际文件路径,并且可能需要处理可能的IOException异常。想了解更多java的相关内容,可以阅读本专题下面的文章。

965

2024.03.22

php中定义字符串的方式
php中定义字符串的方式

php中定义字符串的方式:单引号;双引号;heredoc语法等等。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

916

2024.04.29

go语言字符串相关教程
go语言字符串相关教程

本专题整合了go语言字符串相关教程,阅读专题下面的文章了解更多详细内容。

185

2025.07.29

c++字符串相关教程
c++字符串相关教程

本专题整合了c++字符串相关教程,阅读专题下面的文章了解更多详细内容。

89

2025.08.07

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

660

2026.02.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 9.3万人学习

Git 教程
Git 教程

共21课时 | 3.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号