top是linux下最常用的实时进程监控工具,用于快速识别cpu占用异常的进程;重点关注%cpu、pid、user、pr/ni、time+等字段,结合p键排序、shift+h线程视图、u过滤用户等技巧精准定位,再通过ps、/proc/pid/stack、strace或jstack深入分析根因。

top 是 Linux 下最常用的实时进程监控工具,能快速识别 CPU 占用异常的进程,是排查性能问题的第一步。
看懂 top 默认视图的关键字段
启动 top 后,顶部显示系统整体负载(load average)、CPU 使用率、内存状态;下方是按 CPU 占用排序的进程列表。重点关注以下几列:
- %CPU:该进程当前占用的 CPU 百分比(单核归一化,100% 表示占满一个逻辑 CPU)
- PID:进程 ID,用于后续深入分析或终止操作
- USER:运行该进程的用户,有助于判断是否为业务进程或系统服务
- PR / NI:进程优先级和 nice 值,高优先级(低 PR 值)进程可能更“抢” CPU
- TIME+:进程自启动以来使用的 CPU 时间(精确到百分之一秒),配合 %CPU 可区分是突发占用还是长期霸占
快速定位高 CPU 进程的实用技巧
默认按 CPU 占用降序排列,但有时需进一步筛选:
- 按 P 键(大写)可确保按 %CPU 排序(top 中大小写敏感)
- 按 Shift+H 切换线程视图:若某进程 %CPU 很高但子线程分散,开启线程模式后能看到具体哪个线程在耗 CPU(每行显示 LWP,即线程 ID)
- 按 u 输入用户名,只显示指定用户的进程,适合多租户环境快速过滤
- 按 O 可进入排序字段选择,输入 P(大写)再次确认按 CPU 排序,避免误切到其他字段
定位到进程后,下一步做什么?
找到高 CPU 进程 PID 后,不要急于 kill,先收集上下文信息:
- 用 ps -p PID -o pid,tid,ppid,comm,%cpu,time,args 查看完整命令行和线程关系
- 用 cat /proc/PID/stack(需 root)查看内核态调用栈,判断是否卡在系统调用(如 wait_event、mutex_lock)
- 用 strace -p PID -c(短时间运行)统计系统调用频次和耗时,常见于频繁 read/write、futex 等
- 对 Java 进程,用 jstack PID 看 Java 线程栈,重点关注 RUNNABLE 状态且占用 CPU 的线程
注意容易被忽略的干扰项
某些高 %CPU 并不意味着有问题:
- 短时峰值:如批量任务刚启动,%CPU 冲高但 TIME+ 很小,属正常行为
- iowait 高但 %CPU 低:此时 top 显示 CPU idle 高,实际瓶颈在磁盘或网络,不能只盯 %CPU
- 僵尸进程(Z state) 不消耗 CPU,但会占用 PID,注意区分状态列(S/R/Z/D)
- 容器环境:宿主机 top 看到的是容器内进程 PID,但 cgroup 限制可能让 %CPU 显示失真,建议结合 docker stats 或 cat /sys/fs/cgroup/cpu/.../cpuacct.usage_percpu 核实
定位 CPU 问题的核心是“从现象到本质”:先用 top 锁定目标,再靠辅助命令看清它在做什么、为什么这么做。不复杂但容易忽略细节。










