【伺服器資料恢復】HP EVA系列儲存硬碟離線的資料恢復案例

北亞資料恢復發表於2022-06-16

伺服器儲存資料恢復環境:

EVA儲存結構:1臺EVA某型號控制器+3臺EVA某型號擴充套件櫃+28塊FC硬碟。


伺服器儲存故障:

EVA儲存結構中的兩塊磁碟掉線導致儲存中的某些LUN丟失不可用,管理員聯絡我們資料恢復中心進行資料恢復。


伺服器儲存資料恢復過程:

1、北亞資料恢復中心收到故障儲存的磁碟後,由硬體工程師對所有磁碟做物理檢測,沒有發現物理故障。然後使用壞道檢測

工具檢測磁碟壞道,沒有發現壞道。磁碟壞道檢測日誌如下:



2、備份資料。

資料恢復工程師使用工具將所有磁碟都映象成檔案。備份完部分資料如下:



3、分析故障原因。

經過前面的檢測,磁碟沒有發現物理故障或者壞道,資料恢復工程師判斷故障發生原因是某些磁碟讀寫不穩定。由於EVA

控制器磁碟檢測的策略非常嚴格,一旦有磁碟出現效能不穩定的跡象,就很有可能被EVA控制器判定為壞盤並被踢出磁碟組

。如果某個LUN的同一個條帶中掉線的盤達到一定的數量,這個LUN將不可用。如果EVA中所有的LUN都有盤掉線,那麼所

有LUN都會受影響,所以2塊盤掉線導致整個儲存的LUN都不可用的情況也有可能發生。本案例的實際情況是現存8個LUN,

損壞7個LUN,丟失6個LUN,需要恢復所有LUN的資料。


4、分析LUN的結構。

HP-EVA的LUN都是以RAID條目的形式儲存資料的,EVA將每個磁碟的不同塊組成一個RAID條目。RAID條目的型別有多種。

我們需要分析出組成LUN的RAID條目型別和每個RAID條目是由哪些盤的哪些塊組成。這些資訊都存放在LUN_MAP中,每

個LUN都有一份LUN_MAP,EVA將LUN_MAP分別存放在不同的磁碟中,並使用索引指定其位置。因此,只要在每個磁碟中

找出指向LUN_MAP的索引就可以找到現存LUN的資訊了。


5、分析丟失的LUN。

雖然磁碟中記錄了指向LUN_MAP的索引,但是它只記錄現存的LUN,丟失的LUN是不會記錄索引的。由於EVA中刪除一個

LUN只會清除這個LUN的索引,而不會清除這個LUN的LUN_MAP。只要掃描所有磁碟找到所有符合LUN_MAP的資料塊,

然後排除掉現有的LUN_MAP,剩下的LUN_MAP也不一定全是刪除的,也有一些是以前舊的,但此時無法在LUN_MAP中篩

選,只能通過程式將所有LUN_MAP的資料都恢復出來,人工的去核對哪些LUN是刪除的。


6、分析掉線磁碟。

雖然經過檢測沒有發現磁碟有物理故障和壞道,但還是可能因為效能不穩定從EVA磁碟組中脫離。因為這些脫離的磁碟存放

舊的資料,所以在生成資料的時候需要將這些磁碟都排除掉。那麼如何判斷那些掉線的磁碟呢?由於LUN的RAID結構大多

都是RAID5,只需要將一個LUN的RAID條目通過RAID5的校驗演算法算出校驗值,再和原有的校驗值做比較就可以判斷這個

條目中是否有掉線盤。將一個LUN的所有LUN_MAP都校驗一遍就可以知道這個LUN中哪些RAID條目中有掉線盤。這些RAID

條目中都存在的那個盤就一定是掉線盤。排除掉線盤,然後根據LUN_MAP恢復所有LUN的資料即可。


7、編寫資料恢復程式。

上述的故障分析以及解決思路最終都需要編寫程式來實現。北亞資料恢復工程師編寫掃描LUN_MAP的程式掃描全部

LUN_MAP,結合人工分析獲取最精確的LUN_MAP;編寫檢測RAID條目的程式檢測所有LUN中掉線的磁碟,結合人工

分析排除掉線的磁碟;編寫LUN資料恢復程式,結合LUN_MAP恢復所有LUN資料。


8、恢復所有LUN數。

根據編寫的程式去實現不同的功能,然後人工核對每個LUN,確認是否和管理員描述的一致。部分恢復出來的LUN的資料:



資料驗證:

根據管理員描述,所有LUN的資料可以分成兩大部分:一部分是Vmware的虛擬機器,一部分是HP-UX上的裸裝置,裸裝置裡

存放的是Oracle的dbf資料庫。由於我們恢復的是LUN,無法看到裡面的檔案,因此需要將這些LUN用人工核對的方式確定

哪些LUN存放Vmware的資料,哪些LUN存放HP-UX的裸裝置。然後將LUN掛載到不同的驗證環境中驗證恢復的資料是否完

整。分別部署好Vmware虛擬機器的驗證環境和Oracle資料庫的驗證環境並進行驗證,修復好Oracle資料庫(過程就不贅述了)

並移交資料。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31380569/viewspace-2900919/,如需轉載,請註明出處,否則將追究法律責任。

相關文章