EMC 5400伺服器raid陣列損壞資料恢復過程

北亞資料恢復發表於2018-07-23

一、伺服器資料恢復背景

北京某政府部門的一臺EMC 5400伺服器由於raid陣列損壞導致伺服器崩潰,急需進行伺服器資料恢復,由於使用者伺服器資料涉密,需要上門恢復。

二、伺服器資料恢復檢測

伺服器資料恢復工程師攜帶相關裝置到客戶現場進行資料檢測,發現伺服器癱瘓的原因是由於raid陣列中某些硬碟掉線導致的,對所有磁碟進行物理檢測後沒有發現物理故障,也沒有壞道。隨後工程師藉助資料恢復軟體將故障伺服器(EMC 5400)中的所有磁碟映象到資料恢復服務平臺上,以備後期資料恢復使用。

三、EMC 5400伺服器資料恢復

1、分析伺服器RAID組的結構

EMC 5400伺服器的LUN全部基於RAID陣列組,所以要恢復伺服器資料首先需要分析伺服器底層RAID資訊,然後根據分析的資訊重構原始的RAID組。伺服器資料恢復工程師對raid陣列進行分析後發現伺服器中有兩塊硬碟離線,由於6號盤和10號盤都屬於Hot Spare,但在伺服器發生故障時6號Hot Spare替換了掉線的5號硬碟,10號盤因為未知原因未啟用。所以伺服器雖然成功啟用了6號盤的Hot Spare,但由於在RAID5磁碟陣列中仍然缺失一塊硬碟,資料沒有同步到6號硬碟中。伺服器資料恢復工程師繼續分析所有其他硬碟,得出資料在硬碟中分佈的規律,RAID條帶的大小,以及每塊磁碟的順序。

2、重組raid分析掉線盤順序

根據分析出來的raid資訊使用我公司自主開發的RAID虛擬程式虛擬重組故障伺服器中原始raid。然後分析伺服器中兩塊掉線硬碟的掉線順序。透過對伺服器中所有硬碟的仔細排查發現有一塊硬碟在同一個條帶上的資料和其他硬碟明顯不一樣,因此初步判斷此硬碟可能是最先掉線的,透過自主開發的RAID校驗程式對這個條帶做校驗,發現除掉剛才分析的那塊硬碟得出的資料是最好的,因此可以明確最先掉線的硬碟了。

3、分析RAID組中的LUN資訊

現已知raid資訊,掉盤先後順序,接下來根據分析結果重組raid。分析LUN在RAID組中的分配資訊,以及LUN分配的資料塊MAP。然後根據這些資訊使用raid資料恢復程式,解釋LUN的資料MAP並匯出LUN的所有資料。

四、解釋ZFS檔案系統並修復

使用自主開發的ZFS檔案系統解釋程式對生成的LUN做檔案系統解釋,解析所有檔案節點及目錄結構。
部分檔案目錄截圖如下:

五、EMC 5400伺服器資料恢復結果

由使用者方管理員對資料進行驗證,一切資料正常、完整,本次資料恢復成功
部分檔案驗證如下:

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31380569/viewspace-2158345/,如需轉載,請註明出處,否則將追究法律責任。

相關文章