Linux 故障处理中的信息收集技巧

冷漠man

发布时间：2026-02-04 20:04:01

986人浏览过

来源于php中文网

原创

查系统状态优先看 dmesg 和 journalctl -b：dmesg 获取内核级异常（硬件报错、驱动崩溃、OOM），需及时 dmesg -T 保存；journalctl -b 查用户空间服务日志，应配合 -b -1、-p err、-u、--since 等参数精准过滤。

linux 故障处理中的信息收集技巧

查系统状态优先看 `dmesg` 和 `journalctl -b`

内核级异常（如硬件报错、驱动崩溃、OOM killer 触发）通常不会出现在普通日志里，dmesg 是第一手来源。但要注意，默认输出会滚动刷屏，且重启后缓冲区清空——所以故障刚发生时立刻执行 dmesg -T（带时间戳）并重定向保存，比如 dmesg -T > /tmp/dmesg.log。

journalctl -b 则覆盖用户空间服务启动和运行期日志，比 /var/log/messages 更全、更结构化。若系统启用了 systemd，它应是默认首选。常见误操作是只查 -b（本次启动），却忽略 -b -1（上一次启动），而很多“重启后变好”的问题，真正线索藏在前一次崩溃的 journal 里。

加 -p err 只看错误级别： journalctl -b -p err
按服务过滤： journalctl -u sshd -n 50 查最近 50 行 sshd 日志
时间范围用 --since "2024-06-10 14:00"，避免依赖系统时区混乱

磁盘 I/O 卡顿时别只盯 `top`，用 `iostat -x 1` 看真实瓶颈

top 显示的 %wa（I/O wait）只是 CPU 等待 I/O 的比例，它无法区分是磁盘慢、路径拥塞，还是应用本身频繁小写。真正定位得靠 iostat -x 1（需 sysstat 包）。

关键字段不是 %util（常被误读为“磁盘忙”，实际是队列非空时间占比），而是 await（单次 I/O 平均耗时）和 svctm（设备服务时间）。当 await >> svctm，说明 I/O 请求在队列里积压了，可能是磁盘过载、RAID 卡缓存失效，或虚拟机底层存储争抢。

avgqu-sz 持续大于 1 表示请求排队，结合 await 升高可确认瓶颈在存储层
SSD 场景下 await 超过 10ms 就值得警惕；HDD 超过 50ms 通常已异常
注意 iostat 默认不显示设备名全称（如 nvme0n1p1），加 -d 参数才显示

`strace` 抓进程卡死时，慎用 `-f` 和 `-e trace=network`

当某个进程无响应但 CPU 占用低，strace -p 能看到它最后阻塞在哪个系统调用上——比如停在 recvfrom 就是等网络数据，卡在 futex 很可能是锁竞争。

Hika AI

Hika AI是一个免费的AI智能搜索引擎

下载

但盲目加 -f（跟踪子进程）会导致输出爆炸，尤其 Java/Python 进程 fork 频繁，日志瞬间刷屏，反而掩盖关键调用。更稳妥的是先不加 -f，确认主进程行为；真需子进程信息，再用 strace -ff -o /tmp/strace.out -p 分文件记录。

只关心网络行为？用 -e trace=network 过滤，避免混入大量 read/write
避免用 -s 0（不限制字符串长度）——某些返回值超长会拖慢 strace 本身，甚至卡住目标进程
生产环境慎用 strace 长时间挂载，它会让目标进程单线程执行，可能加剧业务延迟

内存泄漏排查不能只看 `free`，要结合 `cat /proc/meminfo` 和 `smem`

free -h 显示的 available 值容易误导：它包含可回收的 page cache，不代表真正空闲内存。真实压力要看 MemAvailable 是否持续低于 MemTotal * 0.1，以及 SwapCached 是否增长（说明内核正把匿名页换出又换回）。

smem（需单独安装）能按进程维度统计 RSS、PSS、USS，比 ps aux --sort=-%mem 更准——后者只看 RSS，会重复计算共享库内存。一个 Java 进程 RSS 2GB，PSS 可能只有 800MB，因为大量 JNI 库被多个 JVM 共享。

查谁占了 page cache：smem -s pss -r | head -20，PSS 高但 USS 低，大概率是缓存大户
关注 Inactive(file) 和 Active(file) 在 /proc/meminfo 中的比例，若 Active(file) 远高于 Inactive(file)，说明文件缓存长期没被回收，可能影响新分配
容器环境务必看 cgroup 内存限制： cat /sys/fs/cgroup/memory/memory.limit_in_bytes 和 memory.usage_in_bytes

最易被忽略的一点：很多“内存不足”报警其实源于 vm.swappiness=1 下的极端保守策略——内核宁可 OOM kill 进程，也不愿换出匿名页。这时 /proc/meminfo 里的 SwapTotal 是 0 或极小，但 DirectMap 区域却持续增长，得回头检查内核启动参数和 cgroup 配置。

Linux 多网卡环境下的路由配置思路

Linux 服务配置修改后未生效的排查

Linux 运维操作如何实现可审计

Linux 日志写入对磁盘性能的影响

Linux 告警风暴的成因与治理方法

相关专题

sort排序函数用法

sort排序函数的用法：1、对列表进行排序，默认情况下，sort函数按升序排序，因此最终输出的结果是按从小到大的顺序排列的；2、对元组进行排序，默认情况下，sort函数按元素的大小进行排序，因此最终输出的结果是按从小到大的顺序排列的；3、对字典进行排序，由于字典是无序的，因此排序后的结果仍然是原来的字典，使用一个lambda表达式作为key参数的值，用于指定排序的依据。

396

2023.09.04

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

381

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

213

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1506

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

629

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

738

2024.03.22