伺服器資料恢復—EVA儲存raid5硬碟離線的資料恢復案例

北亞資料恢復發表於2024-01-23

伺服器資料恢復環境:

某品牌EVA某型號儲存,底層是RAID5陣列,劃分了若干lun。


伺服器故障&分析:

該儲存裝置中raid5陣列有兩塊硬碟掉線,儲存中的lun丟失。

將故障伺服器儲存中的所有磁碟編號後取出,硬體工程師檢測後發現掉線硬碟不存在物理故障,也沒有發現壞道,都可以正常讀取資料。

掉線硬碟經過檢測沒有發現有物理故障,可以初步判斷硬碟掉線是因為硬碟讀寫不穩定,本案例中EVA儲存中所採用的raid控制器通常會將讀寫不穩定的硬碟判斷為壞盤並踢出陣列。由於raid5的特性,掉線硬碟超過了2塊後就會導致陣列崩潰。

EVA儲存中每個LUN都有一份LUN_MAP,EVA儲存將LUN_MAP分別存放在不同的磁碟中,透過一個索引來指定其位置。因此在每個磁碟中找這個指向LUN_MAP的索引就可以找到LUN的資訊了。


伺服器資料恢復過程:

1、將故障儲存中所有磁碟以只讀模式進行扇區級的全盤映象,映象完成後將所有磁碟按照編號還原到原儲存中。後續的資料分析和資料恢復操作都基於映象檔案進行,避免對原始磁碟資料造成二次破壞。

2、基於映象檔案分析硬碟底層資料。由於LUN的RAID結構是RAID5,只需要將一個LUN的RAID條目透過RAID5的校驗演演算法算出校驗值,再和原有的校驗值進行比較就可以判斷這個條目中是否有掉線盤。將一個LUN的所有LUN_MAP都校驗一遍就可以知道這個LUN中有哪些RAID條目中有掉線盤,在RAID條目中都存在的盤一定就是掉線盤。剔除掉掉線盤後就可以根據LUN_MAP恢復所有LUN的資料。

3、北亞企安資料恢復工程師編寫掃描程式掃描LUN_MAP,結合人工分析找到正確的LUN_MAP。

4、北亞企安資料恢復工程師編寫RAID條目檢測程式檢測所有LUN中掉線的磁碟,結合人工分析排除掉線磁碟。

5、北亞企安資料恢復工程師編寫資料恢復程式,結合LUN_MAP恢復所有LUN資料。人工核對每個LUN,確認是否和使用者方描述的一致。

根據使用者方工程師的描述,LUN的資料分為2部分:Vmware的虛擬機器和HP-UX上的裸裝置。裸裝置裡存放的是Oracle的dbf資料庫。由於恢復的是LUN,無法看到裡面的檔案,因此需要人工核對哪些LUN是Vmware虛擬機器,哪些LUN是HP-UX裸裝置。核對完成後將不同的LUN掛載到不同的驗證環境中驗證恢復出來的資料是否完整。

6、驗證資料完整性沒有問題後,將所有存放vmware虛擬機器的LUN中的虛擬機器檔案都提取出來,然後透過NFS共享的方式掛載到虛擬主機上。

7、透過NFS將所有虛擬機器都新增到虛擬主機以後,將所有虛擬機器加電開機,都能啟動系統。使用者方工程師進入到虛擬機器內檢視資料,經過驗證確認虛擬機器內的資料沒有問題,確認恢復出來的資料完整有效。本次資料恢復工作完成。


來自 “ ITPUB部落格 ” ,連結:https://blog.itpub.net/31380569/viewspace-3004779/,如需轉載,請註明出處,否則將追究法律責任。

相關文章