该用 --cpunodebind 而不是 --membind 的情况是:程序 cpu 密集、线程固定运行在同 numa 节点的 cpu 上时,--cpunodebind 仅绑定 cpu,内存仍可自动 fallback,避免 --membind 因节点内存不足导致分配失败。

什么时候该用 --cpunodebind 而不是 --membind
当你的程序 CPU 密集、线程固定跑在某几个核上,且这些核属于同一个 NUMA 节点时,优先用 --cpunodebind。它只绑 CPU,内存分配仍走默认策略(通常会优先在当前节点分配),既保证计算不跨节点,又避免手动管内存带来的碎片或缺页风险。
常见错误现象:--membind 后程序启动就报 Cannot allocate memory,尤其在容器或 cgroup 限制内存时——因为 --membind 强制所有内存必须来自指定节点,而该节点剩余内存可能不足,哪怕整机还有空闲。
-
--cpunodebind更宽松,适合大多数服务类进程(如数据库 worker 线程、推理 backend) -
--membind只在明确需要“内存零跨节点访问”时才用,比如超低延迟的实时信号处理 - 两者同时用不一定更好:若 CPU 和内存节点不一致,
--cpunodebind 0 --membind 1会导致严重远程内存访问,性能反而暴跌
--cpunodebind 绑的是节点编号,不是 CPU 物理 ID
NUMA 节点编号由内核按物理拓扑分配,和 lscpu 显示的 “NUMA node(s)” 数量一致,但不等于 CPU 列表里的数字。比如 lscpu 显示 CPU(s): 64,NUMA node(s): 2,那节点号只可能是 0 或 1,不能写 --cpunodebind 0-1(语法错误)或 --cpunodebind 0,1(这是多节点绑定,非亲和)。
正确做法是先查清楚每个节点对应哪些 CPU:
numactl --hardware | grep "node [0-9] cpus"
再根据业务线程数选一个负载较轻的节点,例如:
- 查得 node 0 有 CPU 0-15,node 1 有 CPU 16-31
- 想让进程只在 node 0 上跑:
numactl --cpunodebind 0 --membind 0 ./myapp - 只绑 CPU 不绑内存:
numactl --cpunodebind 0 ./myapp
--membind 会禁用本地内存自动 fallback
默认情况下,Linux 在某个 NUMA 节点内存不足时,会悄悄 fallback 到其他节点分配(受 /proc/sys/vm/numa_zonelist_order 控制)。但 --membind 一加,这个 fallback 就彻底关了——所有 malloc()、mmap() 都必须落在指定节点,否则直接失败。
这在以下场景容易出问题:
- 程序启动阶段加载大量共享库,动态链接器分配的内存也受约束
- 使用 jemalloc/tcmalloc 等用户态分配器时,其内部元数据内存同样被限制在绑定节点
- 容器环境里,cgroup memory limit +
--membind可能导致 OOM Killer 误杀,因为内核看到的是“节点内已满”,而非“整机有空闲”
验证是否真被卡死:运行时看 /sys/devices/system/node/nodeX/meminfo 中 MemFree 是否极低,同时 dmesg 是否有 numa: allocation failure。
混合部署下 numactl 的实际生效边界
numactl 只影响它直接启动的进程及其子进程,对已运行进程无效,也不能穿透容器 namespace(除非容器启动时就挂载了 /sys/devices/system/node 并启用 --cap-add=SYS_ADMIN)。
更关键的是:如果进程自己调用了 set_mempolicy() 或 mbind(),会覆盖 numactl 的设置。比如 PostgreSQL 9.6+ 默认启用 memory_pressure_threshold 相关策略,OpenMPI 应用默认做内存重绑定——这时候 numactl 很可能白配。
- 检查进程是否自行改策略:
cat /proc/PID/status | grep -i "Mems_allowed\|Mems_allowed_list" - 确认
numactl是否真正起效:启动后立刻执行numastat -p PID,看numa_hit是否集中在目标节点 - 不要在 systemd service 里简单写
ExecStart=numactl --cpunodebind 0 ./app,要加上MemoryDenyWriteExecute=true等隔离项,否则 cgroup v2 下可能被重调度
最常被忽略的一点:BIOS 里的 NUMA mode 必须是 “Enable”,而不是 “Cluster on Die” 或 “Disable”。后者会让 Linux 看到单个节点,numactl 所有绑定都变成空操作。










