【伺服器資料恢復】伺服器硬碟讀寫不穩定掉線,lun丟失的資料恢復案例

北亞資料恢復發表於2022-04-24

伺服器故障:


伺服器內兩塊硬碟掉線,lun丟失。



伺服器故障檢測分析:


硬體工程師對故障伺服器進行檢測發現掉線的硬碟沒有壞道和其他物理故障,對故障伺服器所有硬碟進行映象備份。


需要進行資料恢復的故障伺服器硬碟無物理故障,可以判斷硬碟掉線的原因是硬碟讀寫不穩定,被控制器預設將讀寫不穩

定的硬碟當作壞盤踢出,掉線硬碟數超過了2個後就會導致伺服器不可用,此時通過常規方式是無法進行資料恢復的。


通過分析該伺服器內的raid條目儲存形式,獲知每個硬碟的不同塊組成一個raid條目,伺服器資料恢復工程師解析出來raid

條目資訊後發現每個LUN都有一份LUN_MAP。EVA將LUN_MAP分別存放在不同的磁碟中,使用一個索引來指定其位置。

找出每個磁碟中指向LUN_MAP的索引就可以找到現存LUN的資訊了。



伺服器資料恢復過程:


1、通過分析確定硬碟是因為效能原因掉線,掉線硬碟中一部分資料是老舊資料。由於LUN的陣列大多是RAID5,只需要將

一個LUN的RAID條目通過RAID5的校驗演算法算出校驗值,再和原有的校驗值作比較就可以判斷這個條目中是否有掉線盤。

而將一個LUN的所有LUN_MAP都校驗一遍就可以知道這個LUN中哪些RAID條目中有掉線盤。而這些RAID條目中都存在的

那個盤就一定是掉線盤。


2、排除掉線盤,然後根據LUN_MAP恢復所有LUN的資料。


3、上述的故障分析以及解決方案需要編寫程式實現。北亞資料恢復工程師編寫掃描LUN_MAP的程式掃描全部LUN_MAP

,結合人工分析獲取最精確的LUN_MAP。


4、資料恢復工程師編寫檢測RAID條目的程式檢測所有LUN中掉線的磁碟,結合人工分析排除掉線的磁碟。


5、資料恢復工程師編寫LUN資料恢復程式,結合LUN_MAP恢復所有LUN資料。


6、根據功能需求去編寫不同的程式,最後使用LUN資料恢復程式結合LUN_MAP恢復所有LUN的資料。然後人工核對每個

LUN,確認恢復出來的資料是否和伺服器管理員提出的需求一致。



伺服器恢復資料驗證


從伺服器管理員那裡獲知:所有LUN的資料分兩塊:一部分是Vmware虛擬機器,一部分是HP-UX上的裸裝置。裸裝置裡存放

Oracle的dbf資料庫。由於恢復出來的資料是LUN,無法看到裡面的檔案,因此需要將這些LUN通過人工來核對哪些LUN是

存放Vmware的資料,哪些是HP-UX的裸裝置裡的Oracle的dbf資料庫資料。然後將LUN掛載到不同的驗證環境中來驗證恢

復出來的資料是否完整。



1、在一臺伺服器上安裝ESXI虛擬環境,通過iSCSI的方式將恢復出來的LUN掛載到虛擬主機上。因為ESXI版本的原因無法直

接掃描到vmfs卷。於是將所有符合vmware虛擬機器的LUN裡面的虛擬機器檔案都生成出來,然後通過NFS共享的方式掛載到虛

擬主機上,然後將虛擬機器一個一個的新增到清單。


2、驗證vmfs虛擬機器。通過NFS將所有虛擬機器都新增到虛擬主機以後將所有虛擬機器開機,所有虛擬機器都能正常啟動系統。由

伺服器管理員輸入密碼進入每個虛擬機器的作業系統,驗證虛擬機器裡面的資料,確認恢復出來的資料沒問題。至此,本案例數

據恢復成功。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31380569/viewspace-2888426/,如需轉載,請註明出處,否則將追究法律責任。

相關文章