要配置linux网络接口的rps/rfs以提升多核cpu处理网络数据包的性能,应依次执行以下步骤:1. 确认网卡支持多队列,使用ethtool -i

配置Linux网络接口的RPS/RFS,简单来说,就是为了让多核CPU更好地处理网络数据包,提升网络性能。让不同的CPU核心分担网络流量,避免单个核心成为瓶颈。

解决方案
RPS (Receive Packet Steering) 和 RFS (Receive Flow Steering) 都是Linux内核中用于将接收到的网络数据包分发到不同CPU核心的技术。RPS是纯软件实现,而RFS则尝试将数据包分发到处理该连接的应用程序所在的CPU核心,从而提高缓存命中率。
1. 确认网卡支持多队列 (Multiple Queues)

首先,确认你的网卡支持多队列。可以使用ethtool -i 命令查看。如果Supports Wake-on 后面显示 WoL 则网卡支持多队列。
2. 配置 RPS

RPS通过/sys/class/net/文件配置。是你的网卡名称,是接收队列的编号。
确定CPU核心掩码: 你需要确定哪些CPU核心用于处理RPS。可以使用
lscpu命令查看CPU核心数量和拓扑结构。然后,计算出对应的CPU核心掩码。例如,如果想让CPU核心0、1、2、3处理RPS,对应的掩码就是f(十六进制)。-
配置rps_cpus: 将计算出的CPU核心掩码写入到
rps_cpus文件中。可以使用以下命令:INTERFACE=eth0 # 替换为你的网卡名称 CPU_MASK=f # 替换为你的CPU核心掩码 (十六进制) for i in $(ls /sys/class/net/$INTERFACE/queues/ | grep rx-); do echo $CPU_MASK > /sys/class/net/$INTERFACE/queues/$i/rps_cpus done
-
配置rps_sock_flow_entries: RPS还需要配置
rps_sock_flow_entries,这个值决定了RPS使用的哈希表的大小。 一个经验法则是:rps_sock_flow_entries = (number of CPUs) * (number of packets per second) * (a small constant, say 4)。 但是,实际最佳值需要根据你的网络流量进行调整。NUM_CPUS=$(nproc) echo $((4096 * $NUM_CPUS)) > /proc/sys/net/core/rps_sock_flow_entries
-
开启rps_flowi_fields: 还需要开启
rps_flowi_fields。echo 1 > /proc/sys/net/core/rps_flowi_fields
3. 配置 RFS
RFS的配置相对简单,主要依赖于内核自动学习和调整。
-
启用RFS: 确保RFS已经启用。
echo 1 > /proc/sys/net/core/rps_flowi_fields
调整RFS相关参数 (可选): 你可以调整一些RFS相关的参数,例如
net.core.rfs_default_sock_queue_depth和net.core.rfs_sock_flow_limit,但通常情况下默认值已经足够好。
4. 持久化配置
上述配置在系统重启后会失效。为了持久化配置,你需要将这些命令添加到/etc/rc.local (如果你的系统使用Systemd,则需要创建Systemd服务) 或者使用sysctl 命令将配置写入到/etc/sysctl.conf 或者 /etc/sysctl.d/ 目录下的文件中。
例如,创建一个文件 /etc/sysctl.d/99-rps-rfs.conf,内容如下:
net.core.rps_sock_flow_entries = 32768 net.core.rps_flowi_fields = 1
然后运行 sysctl -p /etc/sysctl.d/99-rps-rfs.conf 使配置生效。
5. 监控和调优
配置完成后,你需要监控网络性能,并根据实际情况进行调优。可以使用sar -n DEV 1 命令查看网络流量和CPU使用情况。 如果发现某个CPU核心仍然负载过高,可以尝试调整RPS的CPU核心掩码或者RFS的相关参数。
如何确定合适的CPU核心掩码?
选择合适的CPU核心掩码取决于你的CPU拓扑结构和应用程序的运行方式。通常情况下,选择与网卡中断处理程序在同一个NUMA节点上的CPU核心可以获得更好的性能。可以使用lscpu命令查看CPU拓扑结构和NUMA节点信息。例如,如果你的系统有两个NUMA节点,每个节点有4个CPU核心,你可以尝试将RPS配置为只使用一个NUMA节点上的CPU核心。
此外,还需要考虑应用程序的CPU亲和性。如果你的应用程序已经绑定到特定的CPU核心,那么最好避免将RPS配置为使用相同的CPU核心,以免造成资源竞争。
RPS和RFS有什么区别,我应该选择哪个?
RPS是纯软件实现,适用于所有网卡。RFS则尝试将数据包分发到处理该连接的应用程序所在的CPU核心,从而提高缓存命中率。RFS需要网卡和驱动程序的支持,并且需要内核自动学习和调整。
通常情况下,建议同时启用RPS和RFS。RPS作为RFS的补充,可以处理RFS无法处理的数据包。如果你的网卡和驱动程序支持RFS,那么RFS可以提供更好的性能。
配置RPS/RFS后,如何验证是否生效?
验证RPS/RFS是否生效,可以通过以下几种方式:
查看
/proc/interrupts: 使用cat /proc/interrupts命令查看网卡中断是否被分发到不同的CPU核心。如果RPS/RFS配置正确,你应该看到网卡中断被多个CPU核心处理。使用
perf工具: 可以使用perf工具分析网络数据包的处理流程,查看数据包是否被分发到不同的CPU核心。监控CPU使用率: 使用
top或者htop命令监控CPU使用率,查看多个CPU核心是否参与网络数据包的处理。网络性能测试: 使用
iperf或者netperf等工具进行网络性能测试,比较配置RPS/RFS前后的性能差异。










