【北亞伺服器資料恢復】EMC儲存Raid5中2塊硬碟損壞,熱備盤未啟用的資料恢復案例

北亞資料恢復發表於2022-04-01


伺服器資料恢復環境:


EMC儲存;

stat硬碟組成raid5,兩塊熱備盤。



故障:


2塊硬碟出現故障,只有一塊熱備盤被啟用,raid崩潰。伺服器管理員聯絡北亞資料恢復中心進行資料恢復。



伺服器故障檢測:


北亞資料恢復工程師前往現場對伺服器裝置進行了簡單排查,確認raid5癱瘓,上層lun無法正常使用,2塊熱備盤中的1塊已經啟動。資料恢復工程師對掉線硬碟進行物理故障排查,兩塊硬碟均無物理故障。



伺服器資料恢復過程:


1、raid5資料備份。


資料恢復工程師將伺服器上的所有資料進行映象備份,將所有硬碟連線到資料恢復中心的資料恢復專用儲存池中,對所有

硬碟進行了扇區級映象備份。


2、分析該伺服器raid組結構。


伺服器資料恢復通常都是基於復原raid陣列來進行資料恢復的。資料恢復工程師對raid陣列基礎資訊進行分析,基於獲取到

的raid資訊重組raid陣列。


經過資料恢復工程師對每塊硬碟的分析發現:原伺服器內的兩塊熱備盤內全部沒有資料,也就是說即使被啟用的熱備盤也同

樣沒有同步到任何資料,兩塊熱備盤沒有起到任何作用。資料恢復工程師只能透過原raid5中的其他硬碟的資料來重組raid5。


3、分析RAID組掉線盤資訊。


基於第2步中的資料恢復思路,北亞伺服器資料恢復工程師使用自主研發的資料恢復工具解析出這組raid5的基礎資訊,並虛

擬重組出了raid5磁碟陣列。在正常伺服器資料恢復流程下,資料恢復工程師會將有多塊硬碟掉線的陣列中最早掉線的硬碟從

陣列中剔除,比對每塊硬碟在同一個條帶上的資料是否一致,將明顯不同的硬碟剔除後進行條帶校驗,直至找到資料恢復的

最佳狀態為止。


4、分析RAID組中的LUN資訊。


成功重組出raid5陣列後,北亞資料恢復工程師開始對lun資訊進行分析,然後使用北亞開發的raid資料恢復程式對lun資料

的map進行解析和匯出。


5、ZFS檔案系統解析並修復。


使用北亞研發資料恢復工具對上層的檔案系統進行解析和恢復。本案例故障伺服器上層採用zfs檔案系統,對檔案系統解析

時發現部分檔案系統元檔案報錯,於是北亞工程師對現有的資料恢復工具進行debug除錯讓程式適應本次資料恢復的實際

情況。



經過除錯發現zfs檔案系統解析報錯的原因是:故障伺服器突然癱瘓導致檔案系統中某些元檔案被損壞。北亞資料恢復工程

師針對損壞的元檔案進行了人工修復,修復完成後zfs檔案系統可以被正常解析。


6、匯出raid5陣列內所有資料。


ZFS檔案系統解析完成後,北亞資料恢復工程師最終將raid陣列內的資料完整匯出。由伺服器管理員配合搭建資料驗證環境

,對恢復出來的所有資料進行驗證。經過驗證,原伺服器內的所有資料均恢復正常。



來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31380569/viewspace-2885314/,如需轉載,請註明出處,否則將追究法律責任。

相關文章