EMC儲存崩潰raid離線恢復資料方法

北亞資料恢復發表於2018-06-04

Riad資料恢復故障概述

北京某公司的一臺儲存掛載了raid5磁碟陣列,正常使用中儲存忽然崩潰,經管理員檢查發現raid5陣列中有兩塊硬碟離線,陣列中共兩塊熱備盤其中一塊熱備盤啟用失敗,raid5陣列癱瘓導致儲存無法使用。需要進行基於raid5磁碟陣列的資料恢復操作。

Raid5陣列資料恢復檢測:

硬體工程師首先對raid中兩塊離線硬碟進行物理檢測,硬碟無物理故障,無壞道。該儲存上層共一個lun用於sun小機使用,ZFS檔案系統。

Raid5陣列資料恢復過程

1、備份資料
按照資料恢復流程對所有磁碟進行全盤映象,工程師使用資料恢復工具將所有磁碟都映象成檔案,然後將備份資料將520位元組的扇區轉換為512位元組扇區,以方便後期資料恢復操作。

2、分析RAID組結構
根據磁碟陣列的工作模式我們知道LUN都是基於RAID組的,因此需要先分析底層RAID組的資訊,然後根據分析的資訊重構原始的RAID組。工程師對所有磁碟進行分析發現8號盤的Hot Spare替換了5號盤的壞盤。但另一塊熱備盤並未啟用,所以資料未同步。繼續分析其他10塊硬碟,分析資料在硬碟中分佈的規律,RAID條帶的大小,以及每塊磁碟的順序。

3、分析RAID組掉線盤
根據上述分析的RAID資訊,仔細分析每一塊硬碟中的資料,發現有一塊硬碟在同一個條帶上的資料和其他硬碟明顯不一樣,因此初步判斷此硬碟可能是最先掉線的,工程師使用一款自用的RAID校驗程式對這個條帶進行校驗發現除掉剛才分析的那塊硬碟得出的資料是最好的,因此可以明確最先掉線的硬碟了。

4、分析RAID組中的LUN資訊並解釋檔案系統
透過重組的raid分析lun的分配情況和資料塊,使用資料恢復軟體進行lun所有資料,然後對匯出的lun進行解析檔案系統操作。正常情況下此時即可恢復資料。但解析檔案系統報錯,工程師對檔案進行手動檢查發現部分元檔案損壞導致了系統無法自動解析。
上述分析明確了ZFS檔案系統因儲存癱瘓導致部分檔案系統元檔案損壞,因此需要對這些損壞的檔案系統元檔案做修復,才能正常解析ZFS檔案系統。分析損壞的元檔案發現,因當初ZFS檔案正在進行IO操作的同時儲存癱瘓,導致部分檔案系統元檔案沒有更新以及損壞。人工對這些損壞的元檔案進行手工修復,保證ZFS檔案系統能夠正常解析。

5、匯出raid陣列所有資料
利用程式對修復好的ZFS檔案系統做解析,解析所有檔案節點及目錄結構。匯出,資料恢復成功。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31380569/viewspace-2155605/,如需轉載,請註明出處,否則將追究法律責任。

相關文章