【伺服器資料恢復】多塊硬碟掉線導致儲存LUN不可用的資料恢復

北亞資料恢復發表於2023-04-14

伺服器資料恢復環境:

HP-EVA儲存環境:EVA某型號控制器+EVA擴充套件櫃+FC硬碟。


伺服器故障:

EVA儲存中兩塊磁碟掉線導致儲存中某些LUN丟失不可用。


伺服器資料恢復過程:

1、首先對故障儲存中所有磁碟做物理故障檢測,經過檢測沒有發現有硬碟存在物理故障。使用壞道檢測工具檢測也沒有發

現壞道,磁碟壞道檢測日誌部分截圖:

2、將故障儲存中所有磁碟以只讀方式做完整映象備份,以防後續資料恢復過程中操作不當對原始資料造成二次破壞。部分

備份資料如下:

3、由於所有磁碟沒有發現物理故障或者壞道,可以判斷硬碟掉線是因為磁碟讀寫不穩定導致的。EVA控制器對磁碟的檢測

策略非常嚴格,EVA控制器會認為效能不穩定的磁碟是壞盤,將認為是壞盤的磁碟踢出磁碟組。如果某個LUN的同一個條帶

中掉線的磁碟到達極限,這個LUN將不可用,即如果EVA儲存中所有的LUN都包含這些掉線的盤,所有LUN都會受影響,所

以兩塊磁碟掉線也會導致整個儲存的LUN都不可用。目前的情況是現存8個LUN,損壞7個LUN,丟失6個LUN,需要恢復存

儲中所有LUN的資料。

4、HP-EVA的LUN都是以RAID條目的形式來儲存資料的,EVA將每個磁碟的不同塊組成一個RAID條目,RAID條目的型別

可以有很多種。需要分析出組成LUN的RAID條目型別和這個RAID條目是由哪些盤的哪些塊組成。這些資訊都存放在

LUN_MAP中,每個LUN都有一份LUN_MAP。EVA將LUN_MAP分別存放在不同的磁碟中,使用一個索引來指定其位置。

因此去每個磁碟中找到這個指向LUN_MAP的索引就可以找到現存LUN的資訊。

5、雖然磁碟中記錄了指向LUN_MAP的索引,但是它只記錄現存的LUN,丟失的LUN是不會被記錄索引的。由於EVA中刪

除一個LUN只會清除這個LUN的索引,並不會清除這個LUN的LUN_MAP。所以只需要掃描所有磁碟,找到所有符合

LUN_MAP的資料塊,排除現有的LUN_MAP,剩下的LUN_MAP也不一定全是刪除的,也有一些可能是舊的。這種情況下

是無法在LUN_MAP中篩選的,只能先將所有LUN_MAP的資料都恢復出來,人工去核對哪些LUN是刪除的。

6、掉線磁碟中存放的是一些舊的資料,在生成資料的時候需要將這些磁碟都排除掉,提取資料之前需要把這些掉線磁碟找

到。由於LUN的RAID結構大多都是RAID5,只需要將一個LUN的RAID條目透過RAID5的校驗演算法算出校驗值,再和原有的

校驗值做比較就可以判斷這個條目中是否有掉線盤。將一個LUN的所有LUN_MAP都校驗一遍就可以知道這個LUN中的哪些

RAID條目中有掉線盤,這些RAID條目中都存在的那個盤就一定是掉線盤。排除掉掉線盤並根據LUN_MAP恢復所有LUN的

資料即可。

7、北亞企安資料恢復工程師編寫掃描LUN_MAP的程式掃描全部LUN_MAP,結合人工分析獲取到準確的LUN_MAP。編

寫檢測RAID條目的程式檢測所有LUN中掉線的磁碟,結合人工分析排除掉掉線的磁碟。編寫LUN資料恢復程式結合

LUN_MAP恢復所有LUN資料。

8、人工核對恢復出來的每個LUN,確認是否和使用者方工程師描述的一致。部分LUN如下:


資料驗證:

使用者方工程師對恢復出來的資料進行檢驗,經過反覆驗證後確認資料完整可用,本次資料恢復工作完成。


EVA儲存資料安全Tip:

1、經常巡視機房裝置,發現報警資訊及時處理。

2、操作儲存時要謹慎,避免誤操作導致資料丟失。

3、如果發現EVA控制器部分模組不穩定,應及時更換。

4、由於EVA儲存故障多是由磁碟不穩定導致的,EVA儲存內的磁碟應該是同一批次的磁碟。因此,沒有掉線的磁碟效能也快

到極限,如有條件建議一起更換這批磁碟。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31380569/viewspace-2945756/,如需轉載,請註明出處,否則將追究法律責任。

相關文章