【伺服器資料恢復】raid5硬碟離線導致EVA儲存崩潰資料恢復案例

北亞資料恢復發表於2023-02-28

伺服器故障&檢測&分析:

HP EVA儲存裝置中的RAID5磁碟有兩塊硬碟掉線,lun丟失。硬體工程師對故障伺服器進行物理故障檢測,發現掉線硬碟能

夠正常讀取,無物理故障,也沒有發現壞道。

故障伺服器掉線硬碟沒有物理故障,所以掉線極有可能是硬碟讀寫不穩定造成的。EVA控制會將讀寫不穩定的硬碟預設為壞

盤並踢出。raid5冗餘允許最大掉線硬碟的數量是2,掉線的硬碟超過了2塊就會導致伺服器崩潰。

透過分析故障伺服器內raid條目的儲存形式,發現每個硬碟的不同塊組成一個raid條目。透過分析後解析出來raid條目資訊,

發現每個LUN都有一份LUN_MAP。由於EVA將LUN_MAP分別存放在不同的磁碟中,用一個索引來指定其位置,因此在磁

盤中找出這個指定LUN_MAP位置的索引就可以找到現存LUN的資訊。


伺服器資料恢復過程:

1、將故障儲存中所有硬碟連線到北亞企安資料恢復平臺上,以只讀方式將硬碟資料映象備份,後續的資料分析和資料恢復

操作都基於映象檔案進行,避免對原始資料造成二次破壞。

2、透過故障分析確定硬碟掉線的原因是讀寫不穩定,被控制器踢出掉線。這些掉線的硬碟中有一部分資料是老舊資料,LUN

使用的是RAID5,只需要將一個LUN的RAID條目透過RAID5的校驗演演算法算出校驗值,再和原有的校驗值做比較就可以判斷這

個條目中是否有掉線盤。

將一個LUN的所有LUN_MAP都校驗一遍就可以知道這個LUN中的哪些RAID條目中有掉線盤。在這些RAID條目中都存在的那

個盤就一定就是掉線盤。排除掉線盤後根據LUN_MAP即可恢復所有LUN的資料。由北亞企安資料恢復工程師編寫相對應程式

來實現這個方案,根據編寫好的程式去實現不同的功能:

a、編寫程式掃描全部LUN_MAP,結合人工分析獲取到LUN_MAP。

b、編寫檢測RAID條目的程式檢測所有LUN中掉線的磁碟,結合人工分析排除掉線的磁碟。

c、編寫LUN資料恢復程式,結合LUN_MAP恢復所有LUN資料。

恢復出所有LUN的資料後由人工核對每個LUN,驗證是否和使用者方工程師描述的一致。

3、根據使用者方工程師描述,所有LUN的資料可以分成兩部份:1、Vmware的虛擬機器;2、HP-UX上的裸裝置,裸裝置存放

Oracle的dbf資料庫。由於透過恢復出來的LUN無法看到裡面的檔案,因此需要人工核對哪些LUN是存放Vmware的資料,

哪些LUN是HP-UX上的裸裝置。核對完成後將不同的LUN掛載到不同的驗證環境中進行驗證。

4、將所有存放vmware虛擬機器資料的LUN裡面的虛擬機器檔案都生成出來,透過NFS共享的方式掛載到虛擬主機上,然後將虛

擬機一個一個新增到清單。所有虛擬機器加電開機後都能啟動系統。使用者方工程師親自對虛擬機器裡面的資料進行驗證沒有發現

問題。本次資料恢復工作完成。


伺服器資料安全Tips:

1、定期巡查伺服器&儲存裝置,發現報警及時處理。

2、操作要謹慎,避免誤操作導致裝置資料丟失。

3、如果發現EVA控制器模組不穩定,應當及時更換。

4、本案例中的EVA儲存故障是由磁碟讀寫不穩定導致的,如果EVA儲存中所有磁碟(掉線和沒有掉線的)是同一批次,這些

沒有掉線的磁碟也應該快到極限,如果有條件建議更換掉這批磁碟。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31380569/viewspace-2937329/,如需轉載,請註明出處,否則將追究法律責任。

相關文章