网卡丢包主因有四:物理层异常(Link/Speed/Duplex不匹配致silent丢包)、Ring Buffer溢出(RX-OVR飙升)、内核软中断瓶颈(RX-DRP与softnet_stat第2列同步涨)、tc/qdisc人为丢包(/proc/net/dev清零但业务异常)。

网卡物理层异常:Link、Speed、Duplex 不匹配
丢包还没进内核,就已经被网卡硬件 silently 吃掉了。最常见的是光模块衰减过大、网线接触不良、两端协商失败——比如一端强制 1G 全双工,另一端 auto-negotiation 失败后降成 100M 半双工,结果 CRC 错误(RX-ERR)飙升。
立刻执行 ethtool eth0,盯死三行:Link detected: yes(否=物理断连)、Speed:(是否与对端一致)、Duplex:(必须是 Full)。若显示 Auto-negotiation: off 或 failed,别硬扛,换线、重启交换机端口,或统一手动设速:ethtool -s eth0 speed 1000 duplex full。
Ring Buffer 溢出:RX-OVR 持续上涨
RX-OVR(即 rx_over_errors)不是内核丢的,是网卡 DMA 写不进 Ring Buffer 被硬件直接丢弃的包——tcpdump 在 eth0 都抓不到,因为压根没进内存。
查当前大小:ethtool -g eth0;典型值是 256/512,高吞吐场景下极易溢出。临时调大:ethtool -G eth0 rx 4096(注意部分驱动不支持热调,需确认 ethtool -i eth0 中 firmware 版本兼容性)。
同时检查驱动级计数器:ethtool -S eth0 | grep -i "fifo\|over\|buffer",重点看 rx_no_buffer_count 是否非零——有值就坐实是 Ring Buffer 不够用。
内核软中断瓶颈:RX-DRP + softnet_stat 第2列同步涨
RX-DRP 是包已进 Ring Buffer,但内核来不及取走,最终在 softnet 队列里被丢。常见于单核 CPU 被网卡中断打满、NAPI 轮询延迟高、或 net.core.netdev_max_backlog 过小。
先看中断分布:cat /proc/interrupts | grep eth0,若所有 IR-PCI-MSI 都集中在 CPU0,说明没做 IRQ affinity;再看软中断压力:watch -n1 'cat /proc/net/softnet_stat | head -1 | awk "{print \$1,\$2}"',第2列(dropped)持续非零,就是 softnet 队列溢出证据。
可启用 RPS 分散负载:echo f > /sys/class/net/eth0/queues/rx-0/rps_cpus(f 表示前4核),并调大 backlog:sysctl -w net.core.netdev_max_backlog=5000。
tc/qdisc 人为丢包:网卡统计清白,但实际丢得明明白白
这是最隐蔽的“伪硬件丢包”——/proc/net/dev 里 RX-DRP/RX-OVR 全为 0,但业务就是连不上、重传率高。原因往往是 tc 配了 netem loss 或限速策略,丢包发生在协议栈之前,完全绕过网卡计数器。
务必运行:tc qdisc show dev eth0 和 tc -s qdisc show dev eth0(带 -s 才能看到真实 dropped 数);若输出含 loss 5%、limit 1000 或 policer 字样,立刻确认是否误配。清除命令是:tc qdisc del dev eth0 root,但注意:容器网络(如 CNI)可能在 host 网卡上挂规则,别只查 eth0,也得查 cni0、flannel.1 等。
真正难排查的丢包,往往卡在「硬件没报错、内核没记录、tc 又没想起来查」这三不管地带。Ring Buffer 设置、中断亲和性、tc 规则——这三个点,80% 的线上丢包问题都绕不开。









