【Raid資料恢復概述】
北京某企業一臺EMC FC AX-4儲存由於儲存上的RAID5陣列故障導致儲存癱瘓，急需進行raid資料恢復。這臺儲存中搭建了一組12塊硬碟的raid5磁碟陣列，陣列中包括有2塊熱備盤。由於raid陣列中出現兩塊硬碟離線，但熱備盤中有一塊未成功啟用，raid真累癱瘓，上層LUN無法正常使用，儲存崩潰，資料丟失，客戶要求上門對raid陣列進行資料恢復。

【Raid5硬碟檢測過程】
由於硬碟離線原因未知，首先由硬碟工程師對raid陣列中的所有硬碟進行物理檢測（包括掉線盤和正常磁碟）但所有磁碟均無物理故障，掉線盤也是正常的，隨後工程師使用資料恢復工具對所有磁碟進行壞道檢測，依然是正常的。

【raid陣列資料備份】
由於硬碟正常，工程師按照資料恢復流程開始對所有磁碟進行映象備份，在本案例中由於源磁碟的扇區大小為520位元組，因此還需要使用特殊工具將所有備份的資料再做520 to 512位元組的轉換（此為特殊情況，不做過多敘述）。

【分析RAID組結構】
映象完成後將在映象檔案中對底層raid資訊進行分析，得出raid結構後重組原raid組。工程師依次對磁碟進行分析發現該磁碟陣列中9號盤和10號盤為熱備盤（這兩塊磁碟中沒有資料），但從管理介面中檢視到10盤在原raid出現硬碟離線後替換了掉線的3號硬碟，但由於raid5陣列的性質導致雖然10號盤雖然成功啟用但陣列中仍然有一塊硬碟缺失，所以資料沒有同步。繼續分析其他10塊硬碟，分析資料在硬碟中分佈的規律，RAID條帶的大小，以及每塊磁碟的順序。

【分析RAID組lun資訊】
嘗試透過一款我們自用的RAID虛擬程式把客戶的原raid組虛擬元件起來，然後分析LUN在RAID組中的分配資訊，以及LUN分配的資料塊MAP。由於底層只有一個LUN，因此只需要分析一份LUN資訊就OK了。然後解釋LUN的資料MAP並匯出LUN的所有資料。

【解釋ZFS檔案系統並修復】
同樣使用一款自用的軟體對LUN做檔案系統解釋，但是程式在對某些檔案系統原檔案進行解釋時出現報錯現象，工程師首先對程式進行了debug除錯、隨後分析zfs檔案系統，最後得出報錯的原因是元檔案損壞導致解釋zfs檔案系統的程式報錯。工程師手動對損壞的元檔案進行修復操作，zfs檔案系統就可以正常解析了，然後匯出所有資料。

【資料恢復結果驗證】
客戶方工程師對所有資料進行驗證，資料恢復成功。

儲存崩潰導致資料丟失如何處理

相關文章