NETDEV WATCHDOG: transmit queue timed out 导致网卡卡死的修复流程

冷漠man

发布时间：2026-01-28 20:56:03

782人浏览过

来源于php中文网

原创

先看dmesg报错括号内驱动名（如tg3），再用ethtool -i接口名|grep driver和lsmod|grep驱动名确认一致；若ethtool报“No such device”或lsmod无输出，即为驱动层异常。

netdev watchdog: transmit queue timed out 导致网卡卡死的修复流程

怎么快速确认是哪个网卡和驱动在出问题

报错里带括号的驱动名（比如 NETDEV WATCHDOG: eth0 (tg3): transmit queue 0 timed out）就是关键线索。别急着重启，先用两行命令锁死目标：

dmesg -T | grep -i "watchdog.*timed out" —— 看最近一次报错绑定的是哪个接口和驱动
ethtool -i eth0 | grep driver —— 验证驱动名是否一致（把 eth0 换成你实际的接口名）
lsmod | grep tg3 —— 确认模块已加载（tg3 替换为你的驱动名）

如果 ethtool 报 “No such device”，说明接口已被内核禁用；如果 lsmod 没输出，说明驱动可能已崩溃卸载——这两种情况都指向驱动层异常，不是配置或网络问题。

临时恢复：不重启系统，让网卡“活过来”

这是最常用也最有效的应急操作，但必须确保你有带外访问（iDRAC/iLO）或本地终端，否则 ip link set eth0 down 后 SSH 会断连且无法恢复。

先关闭接口：ip link set eth0 down
卸载驱动：rmmod tg3（注意：某些驱动如 mlx5_core 依赖 mlx5_ib 等子模块，得按 lsmod | grep mlx5 输出顺序反向卸载）
重载驱动：modprobe tg3
启用接口：ip link set eth0 up
验证是否恢复：ethtool eth0 | grep "Link detected" 应返回 yes，且 cat /proc/interrupts | grep eth0 中中断计数随流量增长

若 rmmod 报 Module tg3 is in use，用 lsof -nPi | grep eth0 查占用进程；强制卸载（rmmod -f）风险高，可能引发 panic，不推荐。

永久修复：盯紧固件、驱动参数、硬件三处硬伤

临时重载只是绕过问题，真正稳定要从底层收敛。90% 的反复触发都源于这三点：

HIX Translate

由 ChatGPT 提供支持的智能AI翻译器

下载

固件过旧：Broadcom tg3、Intel e1000e 在高吞吐下易卡死 TX 状态机。去官网下载最新 .bin 固件 + 安装对应 firmware 包（如 bnx2-firmware 或 intel-microcode），别信 distro 自带的“够用”版本
驱动参数失配：比如 r8169 驱动对老 Realtek 芯片兼容性差，常需换回厂商提供的 r8168；又如 ethtool -K eth0 tso off 关闭 TCP 分段卸载，可缓解部分 DMA 映射失败场景
硬件隐性故障：曾有案例是网口电路中一个 0402 封装电阻虚焊，热胀冷缩后间歇开路，dmesg 反复刷 watchdog 错误，但 ethtool 和 ping 全部正常——这种必须拆机查板，万用表测阻值+热风枪补焊

内核启动参数如 acpi=off noapic 是“试错型兜底”，仅适用于老旧服务器 BIOS/ACPI 实现有缺陷的场景，现代系统加了反而可能引发其他中断异常，别当成标准解法。

为什么不能只靠 sysctl 或网络服务重启

这个错误不是网络栈配置问题，而是内核发现驱动 ndo_tx_timeout 回调未被及时触发，于是主动停用队列并归零 tx_queue_len。所以：

systemctl restart networking 或 NetworkManager 无效——它只重载用户态配置，驱动状态早已僵死
sysctl -w net.ipv4.tcp_ecn=0 或关 IPv6 也没用——这些影响的是协议栈行为，不解决 TX 描述符耗尽、DMA 失败或中断丢失等驱动层死锁
错误日志出自 net/sched/sch_generic.c 的 dev_watchdog() 函数，本质是内核对驱动“不作为”的惩罚机制，不是告警，是判决

真正难排查的，是那些看起来一切正常却突然卡死的案例：ping 通、tcpdump 能抓到包、ethtool 显示 link up，但所有出向流量停滞——这时候请直奔驱动源码和硬件，别在用户态打转。

chronyc sources 显示 no selectable sources 的 allow / deny 配置

Linux 域名解析缓慢的定位流程

Linux 防火墙误封端口后的解封思路

Linux 如何限制单 IP 连接数？

strace -f -e trace=network 发现大量 connect/reset 的业务排查

相关标签:

ipv6 栈 ios bios 网络问题封装接口栈 tcpdump linux ssh

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Linux Swap 的作用及使用边界下一篇：vmstat bi/bo 极高但无明显 IO 密集进程的 page cache 回写压力排查

作者最新文章

Linux进程五种状态转换原理及R与D状态性能影响分析

2026-03-14 12:24

Linux系统中线程Thread与轻量级进程LWP内在联系分析

2026-03-14 12:41

MacOS系统针对外部存储的Spotlight索引禁用设置

2026-03-14 13:02

Windows运维中利用GPO配置无线网络配置文件自动连接

2026-03-14 13:14

Java中Apache缓存雪崩现象的预防与后端保护逻辑

2026-03-14 13:22

Linux系统卡死问题_内核日志分析

2026-03-14 13:34

Linux 大促场景性能优化_削峰填谷策略

2026-03-14 13:43

Linux日志切割配置_logrotate实践

2026-03-14 13:53

SQLSQL注入防护_输入校验与参数化查询

2026-03-14 14:02

SQL批量删除优化_DELETE与TRUNCATE对比

2026-03-14 14:51

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍：1、IDE接口是一种并行接口，主要用于连接硬盘和光驱等设备，它主要有两种类型：ATA和ATAPI，IDE接口已经逐渐被SATA接口；2、SATA接口是一种串行接口，相较于IDE接口，它具有更高的传输速度、更低的功耗和更小的体积；3、SCSI接口等等。

1999

2023.10.19