经典案例- 磁盘阵列两块盘掉线的数据恢复分析

磁盘阵列两块硬盘离线数据恢复案例一:

    客户使用Dell 2850服务器组建了raid5磁盘阵列,阵列中包含有6块硬盘(SCSI硬盘,单盘容量300G),服务器操作系统为linux Redhat4;文件系统为ext3文件系统。在使用过程中服务器瘫痪,管理员对阵列检查后发现有两块硬盘离线,对其中一块硬盘进行了强制上线操作,但操作系统启动异常。管理员此时意识到事情的严重程度,马上对服务器进行关机,然后联系到数据恢复中心进行数据恢复。

    数据恢复中心初检结论:

    在服务器数据恢复工作中,raid5两块硬盘离线的情况十分常见,由于raid5磁盘阵列支持一块硬盘离线时的荣誉保护,一旦多块硬盘处于离线状态,服务器便处于瘫痪状态,且不会自动上线。由于raid控制器具有一定的面感性,多数硬盘掉线紧紧是因为电源波动、控制器bug等随机原因导致,所以掉线盘可能没有严重的物理故障。本案例就是如此。但是此时管理员进行强制上线操作风险性是很大的,一旦上线错误就会导致控制器对数据产生一些不可逆的损坏,当管理员进入操作系统后因为文件系统不一致进行修复,服务器中所有硬盘数据不一致,数据恢复难度非常大。

    服务器数据恢复过程:

    首先对服务器中所有硬盘进行完整备份,在备份过程中发现多块硬盘已经存在坏道但没有下线,原因是raid没有读到硬盘坏道。备份完成后分析原服务器的raid组成结构然后虚拟出raid环境对raid结构畸形验证,把服务器后期破坏的结构进行人工修正,将修正后的数据导出到一台中间存储上临时存放。数据恢复的最后一步使用完好的硬盘在服务器上搭建新的raid5磁盘阵列,将恢复出的数据迁移到新raid中即可。检验恢复出来的数据一切正常,数据成功恢复。

    服务器数据恢复结论:

    一旦raid5磁盘阵列出现多块硬盘离线、服务器瘫痪的情况切记不要盲目进行强制上线操作,如果有足够的备用空间,可将源硬盘全部镜像。有两种方法(WINDOWS2003或DOS下,其他操作系统有风险):

1、可用相同或大于源盘容量的硬盘做为目标盘,将源盘全部扇区方式CLONE到目标盘。将所有盘做同样操作。

2、可将每块源盘完全以扇区方式输出文件到某大容量存储空间(如大容量硬盘、NAS、SAN、DAS等)

磁盘阵列两块硬盘离线数据恢复案例二:

    HP LH6000的故障如下: 一块硬盘红灯闪亮,机器还在正常运行,但没有多久,系统就不能正常运行,这时才发现另一块硬盘的红灯也在闪亮。

    磁盘阵列数据恢复过程:

1.启动服务器,自检至阵列时按Ctrl+M进入NetRaid管理程序。查看阵列信息,发现硬盘状态为Failed,运用修改配置将一硬盘强行设置成OnLine。重新启动服务器,在进入系统前的硬件自检时无效,启动失败。

2.启动服务器,自检至阵列时按Ctrl+M进入NetRaid管理程序。选择磁盘阵列,将原来OnLine挂起来的硬盘手工Fail掉,然后再把另一块Failed的硬盘手工设置成OnLine,重新启动服务器就可以进入系统了。

3.查看系统及数据库都运行正常后,再进阵列配置工具把Failed的硬盘手工设置成Rebuild,100%完成重建后再重启服务器,所有的阵列及系统都恢复原状了。

    笔者所在单位另一台运行ERP系统的服务器(HP ProLiant 文明用语370),由4块146GB热插拔硬盘通过RAID卡(Smart array阵列卡)配置成一台具有RAID 5级的磁盘阵列。其中一块硬盘在运行过程中突然出现故障。服务器RAID 5自动启用热备份硬盘(Hot Spare),对损坏硬盘进行逻辑替代。整个硬盘的数据访问任务仍然完整地运行在原来的读写进程序列中,应用程序和数据库没有发生影响。

    通过HP自带的ACU工具查看硬盘状态进行检查,发现红灯示警的硬盘处于脱机状态。如果HP ProLiant服务器中的Raid 5有两块硬盘出现亮红灯时,表明系统已经崩溃,数据库也就不能访问,但系统不会自动关机。当第二块硬盘亮红灯后,用常规的手段是不能恢复数据的,只有付费找专业的第三方数据恢复公司恢复数据。

    因此,对惠普老型号HP LH6000系列服务器来说,阵列的设计方面与现在HP ProLiant系列服务器的阵列有很多不同。就操作方法看,HP LH6000服务器的阵列操作方法有很多可选项,包括阵列失败后可以重新删除阵列并重建等,初始化也是手工选择的。但是HP ProLiant系列服务器阵列的初始化是在配置阵列后自动在后台执行的,所以ProLiant系列服务器在阵列出错后是不能重配阵列的。

你可能感兴趣的:(数据恢复,数据恢复,raid,阵列数据恢复,服务器)