首先检查连通性,通过ping和mtr测试本机、网关及外网延迟与丢包;接着评估系统资源,用top、free、iostat分析CPU、内存、磁盘I/O负载;然后检查网络接口错误与TCP重传率,使用ip -s link和netstat -s定位网卡或协议栈问题;再通过ss查看连接队列堆积情况,确认应用处理能力;对于NAT/防火墙服务器,检查conntrack连接数是否超限;最后用iftop、nload监控带宽占用,结合tcpdump抓包分析重传、重复ACK和窗口大小,综合判断拥塞根源。

要分析Linux系统中的网络拥塞情况,需要从连通性、系统资源、网络接口、连接状态和数据包层面进行综合排查。核心是找到丢包、延迟或带宽耗尽的根本原因。
检查连通性与路径质量
这是第一步,用于判断问题范围。
- 测试关键节点: 用ping 127.0.0.1检查本机协议栈;用ping (通过ip route | grep default获取)检查局域网;用ping 8.8.8.8检查外网连通性。异常的高延迟或丢包能快速定位故障段。
- 追踪完整路径: 使用mtr 结合了ping和traceroute的功能。它能显示数据包经过的每一跳的延迟和丢包率。如果从某个特定跳点开始出现严重丢包,问题很可能出在该节点或其上游网络服务商(ISP)的链路上。
评估本地系统资源负载
网络性能受限于CPU、内存、磁盘I/O等整体系统健康度。
- CPU与内存: 运行top或htop查看是否有进程占满CPU。执行free -h,重点关注available(可用)内存是否充足,避免因内存不足导致频繁使用Swap而拖慢整个系统响应。
- 磁盘I/O: 高强度的磁盘读写会抢占CPU时间,影响网络应用处理能力。使用iostat -x 1监控,若%util持续接近100%,且await值很高,则磁盘I/O可能是瓶颈。
分析网络接口与连接状态
直接检查网卡和TCP协议栈的统计信息,寻找拥塞的明确信号。
- 网卡错误与丢弃: 执行ip -s link show ,观察输出中的errors和dropped计数是否持续增长。大量错误可能指向硬件、驱动或物理链路(如网线)问题。
- TCP重传率: 高重传是网络拥塞的核心指标。运行netstat -s并查找segments retransmitted或retransSegs的数值。如果该数字在短时间内显著增加,说明有大量数据包丢失,网络极可能已拥塞。
- 连接队列堆积: 使用ss -natp查看所有TCP连接。关注Recv-Q和Send-Q两列,如果数值长期不为零,表示应用来不及处理接收的数据或发送缓冲区被填满,这既是拥塞的结果,也可能加剧拥塞。
- 连接跟踪限制: 对于NAT或防火墙服务器,检查cat /proc/sys/net/netfilter/nf_conntrack_count是否接近nf_conntrack_max。达到上限会导致新连接无法建立,表现为服务不可用。
监控实时流量与深入抓包
定位具体是哪个进程或哪种流量消耗了带宽,并分析底层数据包行为。
基本上就这些。








