【北亞資料恢復】伺服器raid陣列癱瘓導致ZFS檔案系統元檔案損壞的資料恢復

北亞資料恢復發表於2022-03-18

伺服器資料恢復環境:

emc伺服器;

raid5磁碟陣列;

兩塊熱備盤。



故障:


伺服器上有兩塊硬碟出現故障,但是熱備盤中只有一塊被成功啟用,導致了raid陣列癱瘓,伺服器的上層應用不可用。

管理員聯絡北亞資料恢復中心進行資料恢復。

 


伺服器資料恢復過程:


1、伺服器故障檢測。首先對兩塊掉線的硬碟進行物理故障檢測,如果發現物理故障,需要對硬碟進行物理修復,然後才能

繼續下一步資料恢復操作。經過檢測,所有硬碟(包括掉線硬碟)不存在物理故障。


2、備份伺服器所有硬碟。在資料恢復開始前需要將所有原始硬碟進行映象備份。伺服器硬碟無物理故障可直接備份,由於

源磁碟的扇區大小為520位元組,因此還需要將所有備份資料做520到512位元組的轉換。


3、對伺服器底層raid組進行資料分析。經過對raid陣列的分析,北亞資料恢復工程師發現原伺服器內的兩塊熱備盤內均為空

,沒有寫入任何資料(由此推斷:一塊熱備盤雖然上線,但此時raid組仍然處於缺盤狀態,資料並沒有開始同步。)。


4、北亞資料恢復工程師依次分析整個raid5陣列上的條帶大小,磁碟順序等基礎資訊,開始進行raid重組。



5、根據獲取到的RAID資訊,使用北亞自主開發的RAID虛擬程式將原始的RAID組虛擬出來。但由於整個RAID組中一共掉線

兩塊盤,因此需要搞清楚這兩塊硬碟掉線的順序。


6、仔細分析每一塊硬碟中的資料,發現有一塊硬碟在同一個條帶上的資料和其他硬碟明顯不一樣,因此初步判斷此硬碟可能

是最先掉線的。通過北亞自主開發的RAID校驗程式對這個條帶做校驗,最終確定最先掉線的硬碟。


7、LUN是基於RAID組的。根據上述分析獲取到的資訊將RAID組重組出來,然後再分析LUN在RAID組中的分配資訊以及

LUN分配的資料塊MAP。


8、根據獲取到的LUN資訊,使用北亞自主開發的raid恢復程式解釋LUN的資料MAP並匯出LUN的所有資料。


9、解釋ZFS檔案系統並修復。利用ZFS檔案系統解釋程式對生成的LUN做檔案系統解釋,發現程式在解釋某些檔案系統元文

件的時候報錯。北亞資料恢復工程師立即對程式做debug除錯,分析程式報錯原因,同時分析ZFS檔案系統是否因為版本原

因導致程式不支援。經過長達7小時的分析與除錯,最終發現ZFS檔案系統因儲存癱瘓而導致其中某些元檔案損壞,從而導

致ZFS檔案系統解釋程式無法正常解釋。


10、對損壞的檔案系統元檔案做修復才能正常解析ZFS檔案系統。通過對損壞的元檔案分析,北亞資料恢復工程師發現:

因當初ZFS檔案正在進行IO操作的同時儲存癱瘓,導致部分檔案系統元檔案沒有更新或者損壞。北亞資料恢復工程師對這

些損壞的元檔案進行手工修復,保證ZFS檔案系統能夠正常解析。


11、對修復後的檔案系統進行解析並驗證最新資料。經過伺服器管理員的親自驗證,確認伺服器內所有資料被成功恢復。



來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31380569/viewspace-2872423/,如需轉載,請註明出處,否則將追究法律責任。

相關文章