0

0

Linux 高负载排查流程与方法

舞夢輝影

舞夢輝影

发布时间:2026-02-26 16:44:20

|

150人浏览过

|

来源于php中文网

原创

负载是否真高需先除以cpu核数判断;再结合%wa、iostat、strace等区分cpu/i/o瓶颈;关注available内存而非free;排除d状态进程、句柄泄漏及内核/硬件问题。

linux 高负载排查流程与方法

怎么看负载是不是真高

别一看到 load average: 5.2, 4.8, 3.1 就慌——得先除以 CPU 核数。运行 nprocgrep -c processor /proc/cpuinfo 确认逻辑核数,比如是 4 核,那 1 分钟负载 5.2 ÷ 4 = 1.3,说明已有排队;但如果是 16 核,1.3 就完全正常。

容易踩的坑:

  • uptime 里的三个值当成“越来越严重”:其实 15 分钟值低、1 分钟值高,恰恰说明是刚爆发的新压力,要立刻盯进程,而不是等它自己回落
  • 忽略 D 状态进程:ps aux | awk '$8 ~ /D/ {print}' 能筛出不可中断睡眠的进程,它们不占 %CPU 却推高 load,常因 NFS 挂载卡死或磁盘响应超时导致
  • 误判“负载=CPU 使用率”:load 高但 %us%sy 都很低,%wa 却飙到 60%,那问题根本不在 CPU,而在 I/O

怎么快速分清是 CPU 还是 I/O 瓶颈

打开 top 后别只盯着 %CPU 列排序——先看顶部的 %Cpu(s) 行:us 高 → 用户态计算密集;sy 高 → 频繁系统调用(如大量 fork、epoll_wait);wa 高 → CPU 在干等磁盘或网络返回。

实操建议:

  • vmstat 1 5r(就绪队列长度)和 wa:若 r 长期 > CPU 核数 且 wa > 10%,基本锁定 I/O
  • iostat -x 1 3 关键看 %utilawait%util > 90% 表示设备饱和;await > 10ms 表示单次 I/O 响应慢,可能是磁盘老化、RAID 卡缓存关闭、或云盘 IOPS 配额打满
  • 如果 %wa 高但 iostat 显示磁盘一切正常?立刻查网络:用 iftop -P tcpnethogs 看是否有进程在疯狂发包或建连接

怎么精准定位到具体线程或系统调用

找到高消耗进程 PID 后,下一步不是直接 kill,而是确认它到底在干什么。Java 应用尤其容易卡在某个线程里,光看进程级 CPU 占用会漏掉热点。

Emergent Drums
Emergent Drums

使用Emergent Drums生成独特的鼓样本,全部免版税。

下载

实操建议:

  • 查线程级 CPU:top -Hp <pid></pid>,按 P 排序,记下高占用线程的 TID
  • Java 进程要把 TID 转成十六进制:printf "%x\n" <tid></tid>,再用 jstack <pid> | grep -A10 <hex_tid></hex_tid></pid> 定位堆栈,看是不是死循环、正则回溯、或 synchronized 锁争抢
  • 通用追踪:strace -tt -T -p <pid> -o /tmp/trace.log</pid>,重点观察是否卡在 readfutexepoll_wait 上——卡在 futex 通常意味着锁竞争;卡在 read 且没返回,可能后端服务无响应或 socket 缓冲区堵死
  • 别忘了检查文件句柄:lsof -p <pid> | wc -l</pid>,超过系统限制(如 65535)会导致新建连接失败、日志写不进,表现为“看起来没报错但功能异常”

为什么 free -h 的 available 比 free 更关键

很多人看到 free 列显示还有 200MB 就觉得内存够用,结果 available 只剩 30MB,系统已经开始频繁触发 kswapd 或 OOM Killer。

原因很简单:free 是当前未被任何进程使用的物理内存,而 available 是内核估算出的、能在不触发 swap 的前提下还能分配给新进程的内存量,它已扣除 page cache 中难以回收的部分(比如 dirty page、mmap 映射页)。

容易被忽略的点:

  • dmesg | grep -i "killed process" 必须查——哪怕 available 没归零,只要某次内存分配请求无法满足,OOM Killer 就会按评分杀掉进程,日志里留痕但业务可能已丢数据
  • buff/cache 高 ≠ 内存紧张:Linux 会主动用空闲内存做缓存,只要 available 充足,这是健康行为;但若 available 持续低于总内存 10%,且 vmstatsi/so 不为 0,才是真缺内存
  • 某些容器环境(如 Docker)中,available 计算受 cgroup memory limit 影响,free -h 看的是宿主机视角,需配合 cat /sys/fs/cgroup/memory/memory.usage_in_bytes 对齐

最麻烦的情况,是 load 高、CPU 使用率不高、I/O 看不出异常、内存也够——这时候得怀疑是不是内核模块 bug、硬件故障(如内存 ECC 报错)、或者 hypervisor 层资源争抢。这些没法靠几个命令秒定,但至少能帮你排除掉 90% 的常见误判。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
python中print函数的用法
python中print函数的用法

python中print函数的语法是“print(value1, value2, ..., sep=' ', end=' ', file=sys.stdout, flush=False)”。本专题为大家提供print相关的文章、下载、课程内容,供大家免费下载体验。

192

2023.09.27

python print用法与作用
python print用法与作用

本专题整合了python print的用法、作用、函数功能相关内容,阅读专题下面的文章了解更多详细教程。

13

2026.02.03

printf用法大全
printf用法大全

php中文网为大家提供printf用法大全,以及其他printf函数的相关文章、相关下载资源以及各种相关课程,供大家免费下载体验。

76

2023.06.20

fprintf和printf的区别
fprintf和printf的区别

fprintf和printf的区别在于输出的目标不同,printf输出到标准输出流,而fprintf输出到指定的文件流。根据需要选择合适的函数来进行输出操作。更多关于fprintf和printf的相关文章详情请看本专题下面的文章。php中文网欢迎大家前来学习。

300

2023.11.28

堆和栈的区别
堆和栈的区别

堆和栈的区别:1、内存分配方式不同;2、大小不同;3、数据访问方式不同;4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容,供大家免费下载体验。

425

2023.07.18

堆和栈区别
堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

597

2023.08.10

堆和栈的区别
堆和栈的区别

堆和栈的区别:1、内存分配方式不同;2、大小不同;3、数据访问方式不同;4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容,供大家免费下载体验。

425

2023.07.18

堆和栈区别
堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

597

2023.08.10

Golang 实际项目案例:从需求到上线
Golang 实际项目案例:从需求到上线

《Golang 实际项目案例:从需求到上线》以真实业务场景为主线,完整覆盖需求分析、架构设计、模块拆分、编码实现、性能优化与部署上线全过程,强调工程规范与实践决策,帮助开发者打通从技术实现到系统交付的关键路径,提升独立完成 Go 项目的综合能力。

1

2026.02.26

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 9.8万人学习

Git 教程
Git 教程

共21课时 | 3.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号