0

0

Linux 系统故障排查综合案例

冰川箭仙

冰川箭仙

发布时间:2026-02-14 18:11:02

|

187人浏览过

|

来源于php中文网

原创

linux故障排查需分层验证:从grub引导(检查模块、设备名、root参数)、只读文件系统(查dmesg/smartctl,再fsck/xfs_repair)、oom killer(调oom_score_adj、控内存使用)到磁盘空间假满(用lsof找deleted文件),每层须用对应工具链定位根因。

linux 系统故障排查综合案例

Linux 系统故障排查不是靠运气,而是靠分层验证:从引导链、内核态、文件系统到用户服务,每层都有对应信号和工具。关键在于别跳步——比如看到 Read-only file system 就直接 fsck,却漏看 dmesg 里早有的磁盘 I/O timeout。

GRUB 卡在 GRUB> 提示符怎么临时进系统

这不是配置没生效,是 GRUB 根本没加载到有效配置,必须手动指定内核和 initramfs 路径才能启动。常见于误删 /boot 下的 vmlinuzinitramfs-*.img,或 LVM/RAID 设备名变更后 grub.cfg 仍指向旧路径。

  • 先确认文件系统类型:insmod xfs(XFS)或 insmod ext2(ext4/ext3),错用模块会报 unknown filesystem
  • set root=(hd0,msdos1) 中的分区编号要对得上实际——UEFI 系统可能是 (hd0,gpt1),加一块硬盘后原 hd0 可能变成 hd1
  • 内核参数里的 root= 必须和真实根设备一致:/dev/mapper/centos-root(LVM)、/dev/sda2(普通分区)、UUID=xxx(推荐但需先用 ls 查出 UUID)
  • 进系统后立刻执行 grub2-mkconfig -o /boot/grub2/grub.cfg,否则重启又卡住;若为 UEFI,目标路径常是 /boot/efi/EFI/centos/grub.cfg

Read-only file system 错误背后的真实原因

这个错误从来不是“权限设错了”,而是内核主动将文件系统只读挂载,通常因为检测到不可修复的元数据损坏或底层硬件故障。强行 mount -o remount,rw 多数会失败,且可能加速数据丢失。

918企业营销网站展示系统1.1
918企业营销网站展示系统1.1

918企业营销网站展示系统是918团队专业开发,针对营销型企业,对页面美观需求偏高的企业开发! 918企业营销网站展示系统前台: 1、首 页 2、关于我们 3、新闻中心 4、产品展示 5、案例展示 6、营销网络 7、品质保障 8、在线留言 9、联系方式 后台功能也很完善,美工也不错。栏目有 1、综合设置 2、公司介绍 3、产品管理 4、新闻管理 5、加盟招商 6、品质保障

下载
  • 先跑 dmesg | grep -i "error\|I/O\|ext4\|xfs" —— 如果看到 end_request: I/O errordevice sda1: unable to read superblock,说明磁盘已出问题
  • smartctl -a /dev/sdaReallocated_Sector_CtUDMA_CRC_Error_Count,>0 就该换盘
  • 如果是 ext4,卸载后用 fsck -y /dev/sda1;XFS 必须先 umount,再用 xfs_repair /dev/sda1(不能加 -y,XFS 修复不交互就失败)
  • 修复后若仍只读,检查 /etc/fstab 是否误写成 ro,或 mount 输出中是否含 errors=remount-ro

OOM Killer 杀掉进程后该怎么收场

Killed process XXX (java) total-vm:XXXXkB, anon-rss:XXXXkB, file-rss:0kB 这类日志出现,说明内存已彻底耗尽,OOM Killer 是最后手段,不是 bug。重点不是阻止它触发,而是让它别杀错人。

  • 查当前内存压力:free -havailable 列(不是 free),vmstat 1si/so(交换入/出)是否持续 >0
  • 降低关键进程被杀概率:echo -1000 > /proc/<pid>/oom_score_adj</pid>-1000 是最低值,0 是默认,+1000 最易被杀)
  • 避免治标不治本:调大 vm.swappiness(如设为 10)可减少 swap 使用,但若物理内存真不足,只是延缓 OOM;真正解法是限制容器内存、优化 Java -Xmx、或清理 /var/log/journal 这类膨胀源
  • 注意:oom_score_adj 在进程重启后失效,需写入服务 unit 文件的 ExecStartPre= 或使用 systemd-sysusers 配置持久化

df -h 显示 100% 但 du -sh /* 加起来远小于此

这是典型的“已删除但未释放”现象——进程还在占用已 unlink 的大文件(如日志、临时上传),磁盘空间不会返还,直到进程退出或关闭 fd。

  • 定位罪魁:lsof +L1(列出所有链接数为 0 的打开文件),或更准的 lsof -n | grep deleted | awk '{print $2,$NF}' | sort -k2nr
  • 常见场景:rsyslogdjournalctl、Java 应用的 logback 持有滚动日志句柄;nginx worker 进程持有已删 access.log
  • 释放方式:重启对应进程(如 systemctl restart rsyslog),或用 kill -USR1 触发日志 reopen(需服务支持)
  • 预防:对 /var/log 做 logrotate 配置,或定期执行 journalctl --vacuum-size=200M 控制 journal 大小

最常被忽略的一点:很多故障表象相似(比如都卡在启动),但根因差着三层——GRUB 配置错、initramfs 缺驱动、磁盘 firmware 故障,各自要用完全不同的工具链验证。别依赖单一命令,dmesgjournalctl -b -1(上一次启动日志)、cat /proc/cmdline 这三个输出,往往比 top 更早告诉你问题在哪。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
nginx 重启
nginx 重启

nginx重启对于网站的运维来说是非常重要的,根据不同的需求,可以选择简单重启、平滑重启或定时重启等方式。本专题为大家提供nginx重启的相关的文章、下载、课程内容,供大家免费下载体验。

239

2023.07.27

nginx 配置详解
nginx 配置详解

Nginx的配置是指设置和调整Nginx服务器的行为和功能的过程。通过配置文件,可以定义虚拟主机、HTTP请求处理、反向代理、缓存和负载均衡等功能。Nginx的配置语法简洁而强大,允许管理员根据自己的需要进行灵活的调整。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

514

2023.08.04

nginx配置详解
nginx配置详解

NGINX与其他服务类似,因为它具有以特定格式编写的基于文本的配置文件。本专题为大家提供nginx配置相关的文章,大家可以免费学习。

565

2023.08.04

tomcat和nginx有哪些区别
tomcat和nginx有哪些区别

tomcat和nginx的区别:1、应用领域;2、性能;3、功能;4、配置;5、安全性;6、扩展性;7、部署复杂性;8、社区支持;9、成本;10、日志管理。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

238

2024.02.23

nginx报404怎么解决
nginx报404怎么解决

当访问 nginx 网页服务器时遇到 404 错误,表明服务器无法找到请求资源,可以通过以下步骤解决:1. 检查文件是否存在且路径正确;2. 检查文件权限并更改为 644 或 755;3. 检查 nginx 配置,确保根目录设置正确、没有冲突配置等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

458

2024.07.09

Nginx报404错误解决方法
Nginx报404错误解决方法

解决方法:只需要加上这段配置:try_files $uri $uri/ /index.html;即可。想了解更多Nginx的相关内容,可以阅读本专题下面的文章。

3585

2024.08.07

nginx部署php项目教程汇总
nginx部署php项目教程汇总

本专题整合了nginx部署php项目教程汇总,阅读专题下面的文章了解更多详细内容。

45

2026.01.13

nginx配置文件详细教程
nginx配置文件详细教程

本专题整合了nginx配置文件相关教程详细汇总,阅读专题下面的文章了解更多详细内容。

63

2026.01.13

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

76

2026.02.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 9.1万人学习

Git 教程
Git 教程

共21课时 | 3.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号