【伺服器資料恢復】Raid5癱瘓導致上層lun無法使用的資料恢復案例

北亞資料恢復發表於2023-02-01

伺服器資料恢復環境:

EMC儲存,多塊stat硬碟組建raid5磁碟陣列,兩塊熱備盤,上層採用zfs檔案系統。


伺服器故障&檢測&分析:

EMC儲存中的raid5磁碟陣列有2塊硬碟出現故障,但是隻有一塊熱備盤被啟用,raid5磁碟陣列崩潰,儲存不可用。

伺服器資料恢復工程師前往現場對故障儲存裝置進行檢測。經過簡單排查後確認raid5陣列癱瘓,上層lun無法使用,2塊熱備

盤只有一塊啟動。

硬體工程師對掉線硬碟進行物理故障檢測,均未檢測到壞道,磁頭也不存在物理故障。在進行資料恢復之前不需要進行物理修

復。


伺服器資料恢復過程:

1、在恢復資料之前將故障儲存裝置上的所有資料以只讀方式映象備份。

2、伺服器資料恢復工程師基於映象備份檔案分析故障raid5中的每塊硬碟底層資料,發現兩塊熱備盤內沒有任何資料,也就是

說被啟用的那塊熱備盤也沒有同步到任何資料,故障raid5磁碟陣列中的兩塊熱備盤在磁碟離線後沒有起到任何作用。想要恢復

資料需要透過分析獲取到該raid5磁碟陣列的相關資訊來重組raid5。

3、伺服器資料恢復工程師使用北亞企安自主研發的伺服器資料恢復工具解析出該組raid5磁碟陣列的基礎資訊,根據這些資訊

虛擬重組raid5磁碟陣列。

*將有多塊硬碟掉線的磁碟陣列中最早掉線的那塊硬碟從陣列中剔除,比對每塊硬碟在同一個條帶上的資料是否一致,將同一

個條帶上資料明顯不同的硬碟剔除後進行條帶校驗,直至找到資料恢復的最佳狀態為止。

4、重組raid5陣列後,伺服器資料恢復工程師分析lun資訊,然後使用自主開發的程式解析和匯出lun資料的map。

5、使用北亞企安自主開發的程式解析和恢復上層的檔案系統。該故障儲存裝置上層採用的是zfs檔案系統,伺服器資料恢復

工程師解析檔案系統時發現部分檔案系統元檔案報錯,資料恢復工程師對自主開發的程式進行debug除錯,讓程式適應本案

例資料恢復的需求。

6、經過除錯發現,導致zfs檔案系統解析報錯的原因是由於儲存裝置的突然癱瘓導致zfs檔案系統中某些元檔案被破壞,導致

無法正常解析。伺服器資料恢復工程師對損壞的元檔案進行手工修復,保障zfs檔案系統可以正常解析。

7、zfs檔案系統解析完成後,伺服器資料恢復工程師將故障raid5陣列內的資料完整匯出,由使用者方工程師搭建資料驗證環境

,對恢復出來的資料進行驗證。經過反覆驗證,使用者原伺服器內的所有資料均完全恢復。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31380569/viewspace-2933559/,如需轉載,請註明出處,否則將追究法律責任。

相關文章