Linux 磁盘坏道的识别与处理

冰川箭仙

发布时间：2026-02-05 21:51:08

206人浏览过

来源于php中文网

原创

linux 磁盘坏道的识别与处理

badblocks 扫描前必须关机或卸载分区

直接在挂载的文件系统上运行 badblocks 可能导致误报，甚至破坏数据一致性。Linux 内核缓存和文件系统元数据操作会让磁盘处于“活跃”状态，而 badblocks 的底层读写会与之冲突。

正确做法是：从 Live USB 启动，或先卸载目标分区（如 umount /dev/sdb1），再执行扫描。若无法卸载（比如根分区），只能用只读模式初步筛查：badblocks -n -v /dev/sdb1（-n 表示非破坏性读写测试，但仍建议离线操作）。

对 SSD 不推荐使用 badblocks，其磨损均衡机制会让物理地址映射失效，结果无意义
-c 64 可提升扫描效率（每次读取 64 个块），但需确保内存充足，否则可能触发 OOM killer
扫描耗时极长（TB 级硬盘常需数小时），建议加 -s 显示进度，避免误判为卡死

smartctl 输出中重点关注 Reallocated_Sector_Ct 和 Current_Pending_Sector

smartctl -a /dev/sda 的输出里，这两个值非零就说明磁盘已出现不可逆硬件缺陷。前者表示坏扇区已被控制器替换，后者表示有扇区读取失败、尚未重映射——后者更危险，因为下次访问可能直接超时或 I/O 错误。

注意区分“自检通过”和“SMART 状态正常”：有些盘即使 SMART overall-health self-assessment test result: PASSED，但 Reallocated_Sector_Ct 已增长，说明问题正在发生，只是还没到阈值。

厂商自定义属性名可能不同（如 WD 用 Reallocation_Event_Count），需结合 smartctl -x /dev/sda 查看原始值
如果 Current_Pending_Sector 持续增加，哪怕只有 1～2 个，也应立即备份并更换磁盘
UDMA_CRC_Error_Count 高通常指向线缆或接口接触不良，不是盘本身坏道，别误判

ext4 文件系统下用 e2fsck 标记坏块并跳过使用

发现坏道后，不能只靠硬件层重映射。Linux 文件系统需要知道哪些逻辑块不可用，否则仍可能分配给新文件。用 e2fsck -c /dev/sdb1 可调用 badblocks 并将结果写入 ext4 的坏块 inode 中；加 -k 可保留原有坏块信息不覆盖。

凌动AI

免费上传PDF，支持真AI总结、多轮聊天、语音提问、多文件管理、思维导图导出、分享聊天记录链接。

下载

该操作本质是把坏扇区对应的逻辑块加入文件系统的“禁用列表”，后续 mkfs.ext4 或 e2fsck 都会避开它们。但注意：这仅对 ext2/3/4 有效，XFS、Btrfs 不支持此机制。

运行前确保分区已卸载，否则 e2fsck 会拒绝执行
-c 默认做只读测试，如需写入式验证（更准但有风险），改用 -cc，仅限离线环境且确认无重要数据
标记后的坏块不会自动修复，只是被跳过；若坏道蔓延，文件系统最终仍会因元数据损坏而崩溃

RAID1 中单盘坏道不一定触发降级，但必须手动检查同步状态

RAID1 镜像不会因一块盘出现少量坏道就自动降级，但读取时若主盘返回 I/O 错误，mdadm 会尝试从副本盘读，并记录 mdstat 中的 recovery 或 resync 进度。此时表面正常，实则已存在数据不一致风险。

关键动作是运行 echo check > /sys/block/md0/md/state 触发全盘校验，并检查 /proc/mdstat 是否出现 (F)（failed device）或 (S)（spare）。同时用 mdadm --examine /dev/sdX 对比两块盘的事件计数（Event Count），若相差超过 1，说明同步异常。

不要依赖 RAID 自动修复：坏道发生在写入路径时，可能只写入了其中一块盘，另一块保持旧数据
校验过程本身会加重磁盘负载，老旧硬盘可能在校验中彻底失效，建议先备份再操作
一旦确认某盘有坏道，即使 RAID 仍“active”，也应尽快替换，而不是等它完全宕机

坏道处理最易被忽略的一点：没有坏道的磁盘也可能因固件 bug 或电源波动产生瞬时读写失败，这类问题不会留下 SMART 计数，但会在 dmesg 里反复出现 end_request: I/O error 或 ataN.00: failed command: READ FPDMA QUEUED —— 遇到这种日志，别急着换盘，先查电源和线缆，再做整机压力复现。

Linux 磁盘分区设计常见误区

Linux 磁盘读写放大的成因

Linux OOM 发生前系统有哪些征兆

Linux 自动化部署失败的排错思路

Linux 网络抖动对业务的影响评估

相关标签:

linux node 硬盘 usb ai echo count Error 接口 Event 事件 linux bug

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Linux 服务日志缺失的定位方法下一篇：暂无

作者最新文章

百度集卡活动怎么玩 2026百度集卡分5亿活动玩法攻略

2026-02-04 17:16

mdadm RAID rebuild 极慢的 bitmap / speed_limit_min/max 加速参数

2026-02-04 17:32

2026百度春节分5亿活动攻略官方活动入口秒参与

2026-02-04 17:38

Claude中文版镜像网站靠谱吗？Claude镜像站使用风险说明

2026-02-04 17:41

PostgreSQL 物化视图在高频查询聚合场景的刷新策略

2026-02-04 17:42

chronyc tracking Root delay / dispersion 异常大的 NTP 源更换方案

2026-02-04 17:43

vivo云服务官网在哪 VIVO云服务官网怎么找

2026-02-04 17:51

Linux 网络通信的整体流程

2026-02-04 17:51

豆包生成AI图片怎样才能精准提升出图准确率技巧

2026-02-04 17:51

vivo云服务器官网入口 vivo定位云服务官网

2026-02-04 17:53

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

counta和count的区别

Count函数用于计算指定范围内数字的个数，而CountA函数用于计算指定范围内非空单元格的个数。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

198

2023.11.20

scripterror怎么解决

scripterror的解决办法有检查语法、文件路径、检查网络连接、浏览器兼容性、使用try-catch语句、使用开发者工具进行调试、更新浏览器和JavaScript库或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

309

2023.10.18

500error怎么解决

500error的解决办法有检查服务器日志、检查代码、检查服务器配置、更新软件版本、重新启动服务、调试代码和寻求帮助等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

317

2023.10.25

硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍：1、IDE接口是一种并行接口，主要用于连接硬盘和光驱等设备，它主要有两种类型：ATA和ATAPI，IDE接口已经逐渐被SATA接口；2、SATA接口是一种串行接口，相较于IDE接口，它具有更高的传输速度、更低的功耗和更小的体积；3、SCSI接口等等。

1258

2023.10.19