EN 365bet足球比分加入我们
典型案例
您现在的位置:首页 > 典型案例
【365比分网】某客户IBM DS5020多块盘同时故障处理报告



一、故障描述



某客户一台连接IBM DS5020存储的业务数据库无法访问。工程师抵达现场后登录存储管理软件,诊断发现2块硬盘故障,分别为85柜slot10和85柜slot7,且2块盘属于同一RAID组成员盘(RAID级别为5);同时涉及的Array已为降级状态,其中名为“fc_vmhost” 1.5TB大小的Logical Driver状态已经为failed。

image001.png

image002.png



二、故障排查



查看故障日志发现,在2018年4月18日22:33,85柜Slot10硬盘故障;且在2018年4月19日10:59,85柜slot1重建失败,此硬盘是一块适用于故障Array的热备盘;与此同时,85柜Slot7硬盘故障,此硬盘是一块与85柜Slot10故障硬盘相同Array的成员盘。此后,事件中不断报出故障Array的Logical Drive Failure信息。

image003.png



根据收集到的major Eventlog信息,可以准确地追溯到故障的详细过程。由此过程可以看出:当slot10硬盘发生故障后,热备盘已经开始重建;Logical Drive fc_data1、fc_data2、fc_data3、fc_data4、fc_data5、fc_data6、fc_data7、fc_data8、fc_ocrvote1、fc_ocrvote2、fc_ocrvote3重构成功。但在重构Logical Drive fc_vmhost时热备重建失败,同时触发85柜Slot7硬盘故障。

image004.png



三、故障处理



1、由于故障程度严重,直接操作存储可能会造成二次破坏与其他数据丢失(修复过程执行命令均为高危命令),且修复周期不确定。所以工程师将故障存储中的所有数据备份到其他存储,同时对已宕机的数据库,使用TSM备份进行恢复。

2、故障涉及的Array中,85柜slot7硬盘状态已missing,且为后失效硬盘,所以先对该磁盘toNative与revive操作,再重新对85柜Slot10硬盘进行重构。

3、重构进行到一半时失败,工程师分析认为热备盘slot1出现问题。

4、更换热备盘slot1,再次重构slot10,重构成功后更换新的slot10硬盘并进行数据回拷。

5、最后对Slot7硬盘进行重构,重构顺利完成。客户重新启动业务,数据恢复正常。


四、经验总结



1、DS5020存储通常较稳定,设备短时间内多块盘故障的情况并不常见,但一旦发生将对业务造成很大影响,存储时一定要做好数据备份。

2、故障修复后期,进展不顺利的原因是:部分备份数据在故障存储上未进行异设备备份。一旦存储发生严重故障,数据将很难恢复。为防止出现此类状况,应提前将存储数据备份到其他存储设备。

3、此类多块盘同时故障的情况,务必仔细分析故障日志,综合判断,换盘时要注意先后顺序;若直接操作存储,可能会带来二次破坏与其他数据丢失的风险。


如欲了解更多,请登录365bet足球比分官方网站:m1b.winmatrixat.com

版权所有 365比分网 备案号:京ICP备17074963号-1
技术支持:创世网络