0

0

一次惊心动魄的ASM磁盘头损坏故障处理过程带来的深思

php中文网

php中文网

发布时间:2016-06-07 17:17:53

|

1839人浏览过

|

来源于php中文网

原创

Oracle数据库,为了防止数据丢失以及构建高可用环境给出了多种架构方式。例如,为了防止Oracle实例级别的单点故障提供了RAC技术(

数据通常比喻为企业的血液和生命,数据安全一直是大家非常重视的话题。

Oracle数据库,为了防止数据丢失以及构建高可用环境给出了多种架构方式。例如,为了防止Oracle实例级别的单点故障提供了RAC技术(Real Application Clusters,真正的应用集群),RAC以Share Everything的架构方式使多个主机实例可以共享一套存储上的数据,从而避免了由于个别实例出现故障导致数据库不可用;RAC技术仅仅给出了实例层面的高可用解决方案,为了防止存储层面的单点故障,Oracle又提出了Data Guard(数据卫士)技术,无论是逻辑Data Guard还是物理Data Guard都从存储层面解决了单点故障,同时也是灾备技术的最佳选择。基于RAC和Data Guard技术,Oracle进一步又推出了MAA架构方式,即主站点是RAC架构方式,备用站点也是RAC架构方式,主备站点之间通过Data Guard技术使用redo传输变化的数据,确保备站点与主站点之间达到实时或者准实时的数据一致。

除此之外,Oracle还提供了各种备份恢复工具,比如物理备份恢复工具RMAN、逻辑备份恢复工具EXP/IMP EXPDP/IMPDP。基于这些工具便可以定制一套有效的备份恢复策略,以便防止数据丢失。

以上技术手段都是确保数据不丢失的必要条件,绝非充分条件!这些技术固然重要,但是与之相比,更加重要的是“人”的因素。再优秀的技术,如果没有人来定期做健康检查并排查潜在问题的话,这些都是“浮云”。这里给大家分享一个最近刚刚为客户处理完的一个Case。起到警示的作用。

【数据库环境描述】:

数据库类型:    某政府核心生产系统

影响范围:      全国性

数据量:        8T

主机类型:      IBM 570

数据库版本:    10.2.0.4.0

ASM版本:       10.2.0.4.0

数据库架构方式:两节点RAC架构方式;存储使用ASM技术,并且ASM磁盘头没有备份;未部署Data Guard灾备站点;归档模式,,使用RMAN做全库及增量备份。

【故障现象】:

在手工为表空间添加数据文件的时候,触发ASM磁盘头损坏,ASM的alert日志中记录了如下信息:

Sat Jun  9 01:45:51 2012

WARNING: cache read a corrupted block gn=1 dsk=39 blk=18 from disk 39

NOTE: a corrupted block was dumped to the trace file

ERROR: cache failed to read dsk=39 blk=18 from disk(s): 39

ORA-15196: invalid ASM block header [kfc.c:8033] [check_kfbh] [2147483687] [18] [2154781313 != 2634714205]

System State dumped to trace file /home/oracle/admin/+ASM/bdump/+asm1_arb0_602136.trc

NOTE: cache initiating offline of disk 39  group 1

WARNING: offlining disk 39.3734428818 (BDC_DATA_0039) with mask 0x3

绘影字幕
绘影字幕

视频字幕制作神器、轻松编辑影片

下载

NOTE: PST update: grp = 1, dsk = 39, mode = 0x6

【艰难的数据恢复过程】:

第一次尝试:直接恢复ASM磁盘头数据

尝试使用Oracle KFED(Kernel Files Editor)工具修改ASM磁盘头,如果这种方式能够顺利的恢复ASM磁盘头的话,将是一种完美的结局,然而事与愿违,此时的ASM磁盘头损坏非一般类型的损坏(故障原因中给出分析),使用KFED无法完成恢复。第一次梦魇不期而遇。

第二次尝试:使用RMAN进行数据恢复

既然每天都做RMAN的备份,正常情况下便可以使用RMAN进行数据恢复。因此,找来设备上尝试数据恢复(提醒:千万不要在生产环境上尝试恢复,保留现场很重要!),8T的数据拷贝以及恢复时间都是不可想象的,经过漫长的17小时的恢复,梦魇再一次来袭,在尝试恢复的过程中突然发现,RAC的第二节点上的归档日志不完整,仅剩半个月之前的归档日志,这是不可饶恕的,这也就意味着,使用RMAN工具最多只能恢复到15天前的数据,最近半个月的数据将荡然无存。这便是典型的“无人值守”导致的灾难。

第三次尝试:尽最大努力挽回数据

由于RAC第二节点归档日志的丢失导致最多可以恢复到15天前的数据,但也不要放弃希望,尽一切努力进行数据恢复。再次尝试使用RMAN恢复数据到15天前。正如小说中常见的情景,此时,梦魇又一次降临到这套可怜的数据库!即便恢复到了15天前的数据,发现数据库依然无法正常open。尝试各种手段,启用隐含参数等方法,亦不奏效。使用各种手段强制open数据库后alert日志中频现ORA-00600错误,即使在逻辑导出数据的过程中,都在频繁的抛出 ORA-00600错误。最终以备份介质无效无法完美恢复而终止。

第四次终极处理方法:使用工具直接抽取ASM磁盘组中的数据

在客户几近崩溃的时候,最终选择了直接数据抽取方法进行恢复,直接抽取ASM磁盘组中的数据,构造出数据文件的全貌,又是一个10多小时的漫长数据抽取恢复时间。经过漫长的等待之后,经验证,数据完美恢复完毕,没有让客户丢失任何一条重要数据!

【故障原因】:

此次故障推测是由于底层磁盘的映射混乱导致的,比如主机重启后导致disk number变化,导致Oracle认为ASM磁盘组的某块盘是voting disk,进而错误的写入了心跳信息,覆盖了原来位置上的ASM元数据ALT,这样一旦有大规模的reblance操作需要改上述ALT时,ASM便出现了上述故障。这种故障是无法通过简单的KFED工具进行恢复的。

【数据安全故障总结】:

这个Case中的故障本身并不可怕,可怕的是这个过程中出现的各种险情,发人深思。我们经常提到“备份重于一切”、“有备无患”等DBA职业操守。我认为最佳的诠释应该再加一条:在可信的架构方式下,定期对备份介质进行有效性验证,及灾备环境DRP演练的前提下!

针对此次故障的前因后果,给出以下建议:

1.给出高可用解决方案;建议使用Data Guard技术做远程灾备;

2.RMAN物理备份以及逻辑备份介质,要定期做备份介质有效性验证;

3.“人”的因素,制定严格的备份恢复检查机制,对备份以及灾备环境进行日常检查;

4.前期的架构设计很重要;

5.……

linux

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

705

2026.02.13

微博网页版主页入口与登录指南_官方网页端快速访问方法
微博网页版主页入口与登录指南_官方网页端快速访问方法

本专题系统整理微博网页版官方入口及网页端登录方式,涵盖首页直达地址、账号登录流程与常见访问问题说明,帮助用户快速找到微博官网主页,实现便捷、安全的网页端登录与内容浏览体验。

233

2026.02.13

Flutter跨平台开发与状态管理实战
Flutter跨平台开发与状态管理实战

本专题围绕Flutter框架展开,系统讲解跨平台UI构建原理与状态管理方案。内容涵盖Widget生命周期、路由管理、Provider与Bloc状态管理模式、网络请求封装及性能优化技巧。通过实战项目演示,帮助开发者构建流畅、可维护的跨平台移动应用。

117

2026.02.13

TypeScript工程化开发与Vite构建优化实践
TypeScript工程化开发与Vite构建优化实践

本专题面向前端开发者,深入讲解 TypeScript 类型系统与大型项目结构设计方法,并结合 Vite 构建工具优化前端工程化流程。内容包括模块化设计、类型声明管理、代码分割、热更新原理以及构建性能调优。通过完整项目示例,帮助开发者提升代码可维护性与开发效率。

22

2026.02.13

Redis高可用架构与分布式缓存实战
Redis高可用架构与分布式缓存实战

本专题围绕 Redis 在高并发系统中的应用展开,系统讲解主从复制、哨兵机制、Cluster 集群模式及数据分片原理。内容涵盖缓存穿透与雪崩解决方案、分布式锁实现、热点数据优化及持久化策略。通过真实业务场景演示,帮助开发者构建高可用、可扩展的分布式缓存系统。

61

2026.02.13

c语言 数据类型
c语言 数据类型

本专题整合了c语言数据类型相关内容,阅读专题下面的文章了解更多详细内容。

30

2026.02.12

雨课堂网页版登录入口与使用指南_官方在线教学平台访问方法
雨课堂网页版登录入口与使用指南_官方在线教学平台访问方法

本专题系统整理雨课堂网页版官方入口及在线登录方式,涵盖账号登录流程、官方直连入口及平台访问方法说明,帮助师生用户快速进入雨课堂在线教学平台,实现便捷、高效的课程学习与教学管理体验。

15

2026.02.12

豆包AI网页版入口与智能创作指南_官方在线写作与图片生成使用方法
豆包AI网页版入口与智能创作指南_官方在线写作与图片生成使用方法

本专题汇总豆包AI官方网页版入口及在线使用方式,涵盖智能写作工具、图片生成体验入口和官网登录方法,帮助用户快速直达豆包AI平台,高效完成文本创作与AI生图任务,实现便捷智能创作体验。

669

2026.02.12

PostgreSQL性能优化与索引调优实战
PostgreSQL性能优化与索引调优实战

本专题面向后端开发与数据库工程师,深入讲解 PostgreSQL 查询优化原理与索引机制。内容包括执行计划分析、常见索引类型对比、慢查询优化策略、事务隔离级别以及高并发场景下的性能调优技巧。通过实战案例解析,帮助开发者提升数据库响应速度与系统稳定性。

58

2026.02.12

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Rust 教程
Rust 教程

共28课时 | 6.1万人学习

TypeScript 教程
TypeScript 教程

共19课时 | 3万人学习

JavaScript
JavaScript

共185课时 | 27.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号