Linux 高负载排查与优化策略

舞姬之光

发布时间：2026-02-24 14:25:02

572人浏览过

来源于php中文网

原创

是正常的，尤其在多核cpu上；top默认显示所有核心累计占用率，4核满载可达400%；应关注线程级cpu时间消耗及load average与核心数的比值，而非单纯百分比。

linux 高负载排查与优化策略

top 里 %CPU 超过 100% 是正常的吗？

是正常的，尤其在多核 CPU 上。top 默认显示的是“所有 CPU 核心累计占用率”，所以 4 核机器满载时能看到 %CPU 达到 400%。别一看到 237% 就以为进程疯了。

真正该盯的是单个线程（top -H）或进程的绝对 CPU 时间消耗，而不是百分比本身。

用 top -H -p <pid></pid> 查看某进程下的线程级 CPU 占用，确认是不是某个线程死循环
ps -o pid,ppid,thcount,%cpu,comm -p <pid></pid> 看线程数和平均 CPU，快速判断是否线程爆炸
注意 top 右上角的 “Cpu(s)” 行：如果 us（用户态）长期 >70%，说明应用代码或调用库有问题；sy（内核态）高，可能是频繁系统调用、锁竞争或 I/O 等待

load average 三个数字怎么看？

它们不是 CPU 使用率，而是“平均等待队列长度”：1 分钟、5 分钟、15 分钟内，处于 运行态或不可中断睡眠态（D 状态） 的进程平均数量。

关键不是数字大小，而是和 CPU 核心数对比。比如 8 核机器，load average: 9.23 7.65 5.41 意味着过去 1 分钟平均有 1 个进程在排队等 CPU，不算异常；但若持续 >16，就说明系统开始明显争抢资源。

uptime 或 cat /proc/loadavg 都能查，后者还附带当前运行进程数和最近使用的 PID
如果 load 高但 %CPU 很低，大概率是大量进程卡在 D 状态（如磁盘 I/O 卡住），用 ps aux --sort=-pcpu | head -10 看不到罪魁祸首，得看 ps aux --sort=-state 找 D 状态进程
某些 NVMe 或 multipath 设备故障时，会拖住几十个进程在 D 状态，此时 iostat -x 1 的 %util 可能没爆，但 await 和 r_await 会飙升到几百毫秒以上

perf record 跑出来一堆 [unknown] 怎么办？

这是符号缺失导致的——perf 抓到了指令地址，但找不到对应函数名。常见于没装 debuginfo 包、程序是 strip 过的、或者用了 JIT（如 Java/Node.js）。

Play.ht

根据文本生成多种逼真的语音

下载

不解决就只能靠地址猜，基本没法定位热点。

CentOS/RHEL：装 kernel-debuginfo 和对应版本的 *-debuginfo 包（比如 glibc-debuginfo），路径要和 /usr/lib/debug 对齐
Ubuntu/Debian：开 deb-src 源，装 linux-image-$(uname -r)-dbgsym 和 lib<name>-dbg</name> 类包
自己编译的程序：加 -g，别用 strip；Go 程序记得关 -ldflags="-s -w"；Node.js 用 --interpreted-frames-native-stack 参数启动才能看到 JS 函数栈

为什么 iowait 高但磁盘 util 却很低？

因为 iowait 是 CPU 在等 I/O 完成时的空闲时间统计，而 %util 是设备忙的时间占比。两者统计维度不同——前者是 CPU 视角，后者是设备驱动视角。

典型场景：大量小 IO、随机读写、IO 调度器阻塞、或存储层（如 ceph、nfs、overlayfs）引入延迟，都会让 CPU 等很久，但块设备本身可能刚发完请求就返回了，%util 看不出压力。

用 iostat -x 1 重点看 avgqu-sz（平均队列深度）和 await（单次 IO 平均耗时）：如果 avgqu-sz > 1 且 await > 10ms（SSD）或 >20ms（HDD），说明 IO 路径有瓶颈
iotop -o 找真正发 IO 的进程；pidstat -d 1 看每个进程的读写 BPS 和 IO 等待时间
如果是容器环境，cat /sys/fs/cgroup/blkio/.../blkio.io_service_bytes 可以确认是不是某个容器把 IO 带宽占满了，即使宿主机 iostat 看着不高

高负载排查最易被忽略的点：别只盯着 CPU 和磁盘，/proc/interrupts 里软中断（NET_RX、IRQ_TIME_ACCOUNTING）持续飙高，可能意味着网卡收包压垮了单个 CPU 核，这时候调 irqbalance 或手动绑核才管用。

Linux Apache HTTP Server 配置方法

Linux 容器网络与存储管理

Linux sar -n DEV / -n TCP / -n ETCP 的网络指标采集频率与阈值告警

Linux netperf / iperf3 的 TCP/UDP 吞吐与延迟测量规范

Linux MicroK8s 的 high-availability 模式与自动 HA 切换测试

相关标签:

linux sort 循环栈堆线程 JS ceph linux ubuntu centos debian

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Linux 网络拥塞排查与解决方法下一篇：Linux Dragonfly P2P 的镜像分发加速与预热机制

作者最新文章

ao3官方网站怎么进_ao3官方网站链接入口2026

2026-02-24 11:22

IQOO8参数配置表 IQOO8详细参数与性能解析

2026-02-24 11:28

华为手机官网Mate 80 华为Mate 80新品信息与预约方式

2026-02-24 11:53

SQL 企业级 SQL 查询优化案例

2026-02-24 11:56

edge插件位置本地扩展目录路径说明

2026-02-24 12:17

Linux Apache HTTP Server 配置方法

2026-02-24 12:25

华为平板克隆App下载华为平板数据迁移工具安装指南

2026-02-24 12:46

Linux ausearch / aureport 的审计日志过滤与周报生成脚本模板

2026-02-24 12:54

edge浏览器插件官网 Microsoft Edge Add-ons扩展官方平台

2026-02-24 13:03

Linux 磁盘 I/O 问题定位技巧

2026-02-24 13:04

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

sort排序函数用法

sort排序函数的用法：1、对列表进行排序，默认情况下，sort函数按升序排序，因此最终输出的结果是按从小到大的顺序排列的；2、对元组进行排序，默认情况下，sort函数按元素的大小进行排序，因此最终输出的结果是按从小到大的顺序排列的；3、对字典进行排序，由于字典是无序的，因此排序后的结果仍然是原来的字典，使用一个lambda表达式作为key参数的值，用于指定排序的依据。

404

2023.09.04