EMC CX4-480伺服器riad故障資料恢復

北亞資料恢復發表於2018-07-09

【伺服器資料恢復故障描述】

使用者的EMC CX4-480儲存伺服器由於硬碟出現故障離線癱瘓。伺服器中共有10塊硬碟,其中7塊硬碟組成RAID 5磁碟陣列。另外3塊硬碟為伺服器在使用過程中的掉線磁碟,使用者在處理掉線磁碟時只新增新的硬碟做rebuild,並沒有將掉線的硬碟拔掉,現已有過3塊掉線磁碟,所以伺服器中有3塊多餘硬碟。

伺服器管理員推斷伺服器癱瘓的原因是陣列中硬碟出現硬體故障導致伺服器癱瘓,於是將所有硬碟交給硬體資料恢復工程師對硬體進行物理檢測。硬體資料恢復工程師對伺服器中所有硬碟逐一進行物理檢測後並沒有發現硬碟存在物理故障,只好由伺服器資料恢復工程師對所有硬碟做全盤映象後對伺服器riad進行分析。

【伺服器資料恢復】

按照資料恢復流程對所有磁碟進行映象備份後,伺服器資料恢復工程師開始對伺服器raid結構進行分析;伺服器資料恢復工程師分析後發現該伺服器中的硬碟每512位元組多加了一個8位元組的校驗,也就是變成了每扇區520位元組了。如此一來繼續進行raid結構分析將十分困難,為了提高工作效率,伺服器資料恢復工程師自己編寫了一個小程式將8位元組的校驗去掉來方便後期的工作。
所有磁碟都轉換完成後,工程師繼續分析RAID的結構。由於多了3塊以前的舊盤,需要透過比較每塊磁碟,即其中會有兩塊磁碟前面的一部分相同,而這兩塊當中會有一個是舊的,舊的資料量沒有新盤多,就可以排除舊的磁碟。這樣的磁碟會有3對,也就可以排除所有舊的磁碟了。
接下來看RAID結構,由於客戶用的NTFS檔案系統,用MFT很容易就可以找到RAID的結構了。知道RAID結構後發現這不是一個普通的RAID 5,而是一個雙迴圈。無法藉助資料恢復工具重組RAID,只好轉為其他方式重組raid陣列!重組RAID後發現資料不是最新的。伺服器資料恢復工程師猜測可能是RAID 5先掉線一塊硬碟時管理員沒有及時發現,沒有及時新增新的硬碟做rebuild。導致執行一段時間後又有一塊硬碟掉線了,才造成整個RAID不可用。所以還需要找出一塊舊的磁碟,才能生成最新的資料。繼續進行找盤的工作!伺服器資料恢復工程師採用窮舉加校驗的方法進行分析,即假設某個磁碟是掉線的,踢掉磁碟後重組RAID,但不是生成全部的資料,而是隻生成前面5G的資料,我們只需要檢視這個索引表的點陣圖的資訊是否正確就可以判斷此RAID是否正確。如果正確那麼生成此RAID的資料即可完成RAID的重組

【伺服器資料恢復成功】

整個恢復過程,包括做映象,扇區轉換和最後的複製資料,一共耗時3天。資料恢復率達百分之九十九以上。雖然整個過程比較漫長,但是最終的結果使用者很高興,因為這給他們帶來了不必要的損失。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31380569/viewspace-2157552/,如需轉載,請註明出處,否則將追究法律責任。

相關文章