raid5硬碟掉線但熱備盤未啟用如何恢復資料

北亞資料恢復發表於2020-02-25

【Raid5陣列資料恢復案例簡介】

今天記錄一次raid5磁碟陣列資料恢復的成功案例。首先簡單介紹一下需要資料恢復的伺服器基礎配置情況:

客戶的伺服器裝置為EMC儲存,raid5磁碟陣列,由多塊stat硬碟組成一組磁碟陣列,包含兩塊熱備盤。伺服器發生故障崩潰時底層硬碟有2塊出現故障,熱備盤中有一塊被啟用。


【伺服器資料恢復常規檢測】

資料恢復中心的資料恢復工程師前往客戶現場對伺服器裝置進行故障檢測。伺服器資料恢復工程師對客戶伺服器裝置進行了簡單排查,確認raid5陣列癱瘓;上層lun無法正常使用,2塊熱備盤中有一塊已經啟動。

資料恢復工程師對掉線的硬碟進行物理排查,兩塊硬碟中均未檢測到壞道、磁頭故障等物理損壞。進行接下來的資料恢復操作時可以不需要進行物理修復即可。


【raid5資料備份】

在資料恢復操作之前,需要將伺服器裝置上的所有原始資料進行映象備份,在本次資料恢復案例中,伺服器資料恢復工程師將所有硬碟連線到資料恢復中心的資料恢復專用儲存池中,對所有硬碟進行了扇區級映象操作。


【分析該伺服器raid組結構】

伺服器資料恢復操作通常都是基於恢復raid組進行資料恢復操作的,因此本次資料恢復操作也同樣需要對raid陣列基礎資訊進行分析,從而重組raid結構。

經過資料恢復工程師對每一塊硬碟的分析發現,客戶原伺服器內的兩塊熱備盤內全部沒有任何資料,也就是說即使被啟用的熱備盤也同樣沒有同步到任何資料,兩塊熱備盤從實際上而言並沒有發生任何作用。想要恢復資料,只好繼續恢復原raid5陣列的其他基本資料,重組raid5.


【分析RAID組掉線盤資訊】

根據上述資料恢復思路,伺服器資料恢復工程師使用自主研發的資料恢復工具分析出該組raid5陣列的基礎資訊,並虛擬重組出了raid5磁碟陣列。在raid資料恢復常規流程下,我們會將多塊硬碟掉線的陣列中最早掉線的硬碟從陣列中剔除。通常我們進行資料分析的方法是比對每塊硬碟在同一個條帶上的資料是否一致,將明顯不同的硬碟剔除後進行條帶校驗,直至找到資料恢復的最佳狀態為止。


【分析RAID組中的LUN資訊】

成功重組出raid5陣列後,工程師開始對lun資訊進行分析,在本次資料恢復案例中,客戶的伺服器上層只有一個lun,工程師只需要將這唯一的一個lun資訊進行分析,然後使用raid資料恢復程式對lun資料的map進行解析和匯出。


【ZFS檔案系統解析並修復】

使用北資料恢復工具對上層的檔案系統進行解析和恢復。客戶上層採用的是zfs檔案系統,伺服器資料恢復工程師對檔案系統解析時發現部分檔案系統元檔案報錯,於是資料恢復工程師對現有的資料恢復工具進行debug除錯,使程式適應本次資料恢復的實際情況。

經過除錯,導致zfs檔案系統解析報錯的原因是由於客戶的伺服器突然癱瘓導致檔案系統中某些元檔案被損壞,導致資料恢復工具無法正常解析。伺服器資料恢復工程師針對損壞的元檔案採用人工修復等方法,保障zfs檔案系統可以被正常解析。

【匯出raid5陣列內所有資料】

通過對檔案系統的完整解析,伺服器資料恢復工程師最終將客戶raid陣列內的資料完整匯出,由客戶工程師配合搭建資料驗證環境,恢復出來的所有資料進行驗證,經過驗證,客戶原伺服器內的所有資料均被成功恢復,本次資料恢復成功。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31380569/viewspace-2677147/,如需轉載,請註明出處,否則將追究法律責任。

相關文章