儲存崩潰導致資料丟失如何處理

北亞資料恢復發表於2018-05-28
【Raid資料恢復概述】
北京某企業一臺EMC FC AX-4儲存由於儲存上的RAID5陣列故障導致儲存癱瘓,急需進行raid資料恢復。這臺儲存中搭建了一組12塊硬碟的raid5磁碟陣列,陣列中包括有2塊熱備盤。由於raid陣列中出現兩塊硬碟離線,但熱備盤中有一塊未成功啟用,raid真累癱瘓,上層LUN無法正常使用,儲存崩潰,資料丟失,客戶要求上門對raid陣列進行資料恢復。

【Raid5硬碟檢測過程】
由於硬碟離線原因未知,首先由硬碟工程師對raid陣列中的所有硬碟進行物理檢測(包括掉線盤和正常磁碟)但所有磁碟均無物理故障,掉線盤也是正常的,隨後工程師使用資料恢復工具對所有磁碟進行壞道檢測,依然是正常的。

【raid陣列資料備份】
由於硬碟正常,工程師按照資料恢復流程開始對所有磁碟進行映象備份,在本案例中由於源磁碟的扇區大小為520位元組,因此還需要使用特殊工具將所有備份的資料再做520 to 512位元組的轉換(此為特殊情況,不做過多敘述)。

【分析RAID組結構】
映象完成後將在映象檔案中對底層raid資訊進行分析,得出raid結構後重組原raid組。工程師依次對磁碟進行分析發現該磁碟陣列中9號盤和10號盤為熱備盤(這兩塊磁碟中沒有資料),但從管理介面中檢視到10盤在原raid出現硬碟離線後替換了掉線的3號硬碟,但由於raid5陣列的性質導致雖然10號盤雖然成功啟用但陣列中仍然有一塊硬碟缺失,所以資料沒有同步。繼續分析其他10塊硬碟,分析資料在硬碟中分佈的規律,RAID條帶的大小,以及每塊磁碟的順序。

【分析RAID組lun資訊】
嘗試透過一款我們自用的RAID虛擬程式把客戶的原raid組虛擬元件起來,然後分析LUN在RAID組中的分配資訊,以及LUN分配的資料塊MAP。由於底層只有一個LUN,因此只需要分析一份LUN資訊就OK了。然後解釋LUN的資料MAP並匯出LUN的所有資料。

【解釋ZFS檔案系統並修復】
同樣使用一款自用的軟體對LUN做檔案系統解釋,但是程式在對某些檔案系統原檔案進行解釋時出現報錯現象,工程師首先對程式進行了debug除錯、隨後分析zfs檔案系統,最後得出報錯的原因是元檔案損壞導致解釋zfs檔案系統的程式報錯。工程師手動對損壞的元檔案進行修復操作,zfs檔案系統就可以正常解析了,然後匯出所有資料。

【資料恢復結果驗證】
客戶方工程師對所有資料進行驗證,資料恢復成功。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31380569/viewspace-2155231/,如需轉載,請註明出處,否則將追究法律責任。

相關文章