伺服器資料恢復-raid5多塊磁碟離線,熱備盤沒有啟用導致陣列崩潰的資料恢復案例

北亞資料恢復發表於2023-12-19

伺服器資料恢復環境&故障:

一臺emc某型號儲存伺服器,儲存伺服器上組建了一組raid5磁碟陣列,陣列中有兩塊磁碟作為熱備盤使用。儲存伺服器在執行過程中有兩塊磁碟出現故障離線,但是隻有一塊熱備盤啟用,最終導致該raid5陣列崩潰,上層應用無法正常使用。


伺服器故障檢測:

將故障儲存伺服器中所有磁碟編號後取出,由硬體工程師對兩塊掉線的硬碟進行物理故障檢測,經過檢測發現這2塊離線的磁碟確實存在物理故障,需要對這2塊盤進行物理故障修復後才能進行下一步的資料恢復,儲存伺服器中其他硬碟經過檢測沒有發現存在物理故障及壞道。

將故障儲存伺服器中的完好硬碟以只讀方式進行扇區級的全盤映象。針對存在物理故障的2塊磁碟,由硬體工程師進行開盤處理後使用專業工具進行全盤映象。由於故障儲存伺服器中所有磁碟的扇區大小為520位元組,在進行資料恢復之前需要將所有映象資料做520位元組to512位元組的轉換。


伺服器資料恢復過程:

1、基於映象檔案分析所有磁碟底層資料,經過分析發現故障儲存伺服器中的兩塊熱備盤是空的,沒有寫入任何資料,據此推斷有一塊熱備盤雖然上線,但此時raid陣列仍處於缺盤狀態,資料並沒有開始同步。

2、透過分析底層資料獲取到條帶大小、磁碟順序等raid陣列結構基礎資訊,利用這些資訊虛擬重組raid5陣列。

3、由於該型號儲存伺服器的LUN是基於RAID5陣列的,在raid5陣列重組完成之後,需要分析LUN在RAID陣列中的分配資訊以及LUN分配的資料塊MAP。

4、根據上一步獲取到的資訊,使用北亞企安自研程式解釋LUN的資料MAP並匯出LUN的所有資料。

5、使用北亞企安自研的ZFS檔案系統解釋程式對生成的LUN做檔案系統解釋,但是在解釋某些檔案系統元檔案的時候程式報錯。開發工程師對該解釋程式做debug除錯並分析程式報錯原因,與此同時,檔案系統工程師分析ZFS檔案系統是否存在問題。經過數小時的分析與除錯,最終確認導致程式無法正常解釋ZFS檔案系統的原因:ZFS檔案系統中某些元檔案損壞。對損壞的元檔案進行分析,發現ZFS檔案系統正在進行I/O操作的時候儲存伺服器癱瘓,導致部分檔案系統元檔案損壞。

6、北亞企安資料恢復工程師對損壞的ZFS檔案系統元檔案進行手工修復,直到ZFS檔案系統能夠正常解析。

7、對修復後的ZFS檔案系統進行解析並驗證資料。經過使用者方工程師的仔細驗證,確認儲存伺服器內所有資料成功恢復。本次儲存伺服器資料恢復工作完成。


來自 “ ITPUB部落格 ” ,連結:https://blog.itpub.net/31380569/viewspace-3000613/,如需轉載,請註明出處,否則將追究法律責任。

相關文章