%cpu长期超90%却找不到进程,主因是短生命周期进程干扰或进程名截断;应使用top -b -n 1和ps aux --sort=-%cpu定位,并检查内核线程、shell脚本及i/o、内存、swap真实状态。

top 命令里看到 %CPU 长期超 90%,但找不到具体进程?
Linux 卡顿最常见原因是某个进程偷偷吃满 CPU,但 top 默认按 CPU 排序时,可能被短生命周期进程(比如 shell 脚本启的临时子进程)干扰,或者进程名太短、被截断,看不出真实身份。
实操建议:
- 运行
top -b -n 1 | head -20抓快照,避免交互式刷新掩盖瞬时峰值 - 用
ps aux --sort=-%cpu | head -15看更稳定的排序结果,--sort=-%cpu强制降序且不依赖交互状态 - 重点关注
ps输出中COMMAND列末尾带[...]的进程(内核线程),它们通常不占 CPU,但若出现异常高占用,可能是硬件驱动或内核模块问题 - 如果看到大量
sh或bash进程 CPU 高,别急着 kill,先用ls -l /proc/<pid>/cwd</pid>和cat /proc/<pid>/cmdline | tr '\0' ' '</pid>查它在跑什么脚本
df -h 显示磁盘没满,但 iotop 显示 I/O 百分比长期 95%+?
磁盘空间充足 ≠ I/O 不瓶颈。小文件随机读写、日志刷盘、swap 频繁交换都会让 I/O 队列堆积,系统响应变慢,尤其在机械硬盘或低配云盘上更明显。
实操建议:
- 运行
iotop -oP(只显示实际 I/O 进程 + 只显示有 I/O 的进程),重点看IO>列,不是SWAPIN - 检查
/var/log/journal/是否过大:systemd-journald 默认不限大小,日志暴涨会引发持续写入,用journalctl --disk-usage查,用journalctl --vacuum-size=200M限制 - 确认是否启用 swap:即使内存够,内核仍可能把匿名页换出,用
swapon --show和cat /proc/swaps核对;若非必要,用swapoff /dev/sdXn关掉并注释/etc/fstab中对应行 - SSD 用户注意:
vm.swappiness=1比默认 60 更合理,减少无谓 swap 倾倒
明明 free -h 显示还有 2G 内存,系统却频繁卡死?
Linux 的“空闲内存”不等于“可用内存”。内核会把大量内存用于 page cache 和 slab 缓存,这部分在需要时可快速回收。但当缓存碎片化严重、或分配大块连续内存失败(如某些驱动、DMA 场景),就会触发直接回收甚至 OOM killer。
一个经过完善设计的经典网上购物系统,适用于各种服务器环境的高效网上购物系统解决方案,shopxp购物系统Html版是我们首次推出的免费购物系统源码,完整可用。我们的系统是免费的不需要购买,该系统经过全面测试完整可用,如果碰到问题,先检查一下本地的配置或到官方网站提交问题求助。 网站管理地址:http://你的网址/admin/login.asp 用户名:admin 密 码:admin 提示:如果您
实操建议:
- 看
cat /proc/meminfo | grep -E "^(MemAvailable|Buffers|Cached|SReclaimable)",重点是MemAvailable—— 它才是内核估算的真正可用量 - 如果
MemAvailable远低于free显示值,说明 slab 缓存(尤其是SReclaimable)占了大头,可能是 dentry/inode 缓存未及时释放,常见于大量小文件操作后 - 临时缓解:运行
echo 2 > /proc/sys/vm/drop_caches(仅清 page cache + slab,不影响运行中进程),但别加到定时任务——治标不治本 - 长期方案:检查是否有程序泄漏
inotify句柄或未关闭的epoll实例,用lsof -p <pid> | wc -l</pid>对比句柄数是否异常增长
重启后卡顿消失,过几小时又复发,且 dmesg 里有 Out of memory: Kill process?
这不是偶然 OOM,而是内存泄漏或资源未释放的明确信号。OOM killer 杀掉的只是“替罪羊”,真正的问题往往藏在被杀进程的上游:比如一个 Python 服务不断 fork 子进程但不 wait,或 Node.js 应用未正确处理 stream 错误导致 socket 积压。
实操建议:
- 立即执行
dmesg -T | tail -30,找最近一次 OOM 时间点,再用journalctl --since "2024-05-20 14:22:00"(填你看到的时间)查当时服务日志 - 用
ps aux --sort=-vsz | head -10查虚拟内存(VSZ)最大的进程,它未必是 CPU 高的那个,但很可能是泄漏源 - 对可疑进程,用
cat /proc/<pid>/status | grep -E "^(VmRSS|VmSize|Threads|SigQ)"</pid>看 RSS 是否随时间缓慢上涨,SigQ值极大(如 65535/65535)说明信号队列塞满,常因异步处理逻辑卡死 - 不要只盯着应用层:某些旧版 NVIDIA 驱动、Realtek 网卡固件在特定负载下也会缓慢泄漏 kernel memory,
slabtop里观察kmalloc-*或kmalloc-rcl-行是否持续增长
卡顿的根因从来不在“系统太老”或“配置太低”,而在资源使用路径上的某处没关严的阀门。查的时候少看平均值,多盯瞬时峰值;别信“应该没问题”,要验证每个环节的真实压力反馈。









