伺服器磁碟陣列資料恢復成功案例

北亞資料恢復發表於2018-09-04

伺服器故障描述:

客戶使用Dell 2850伺服器組建了raid5磁碟陣列,陣列中包含有6塊硬碟(SCSI硬碟,單盤容量300G),伺服器作業系統為linux Redhat4;檔案系統為ext3檔案系統。在使用過程中伺服器癱瘓,管理員對陣列檢查後發現有兩塊硬碟離線,對其中一塊硬碟進行了強制上線操作,但作業系統啟動異常。管理員此時意識到事情的嚴重程度,馬上對伺服器進行關機,然後聯絡到資料恢復中心進行資料恢復。

資料恢復中心初檢結論:

在伺服器資料恢復工作中,raid5兩塊硬碟離線的情況十分常見,由於raid5磁碟陣列支援一塊硬碟離線時的榮譽保護,一旦多塊硬碟處於離線狀態,伺服器便處於癱瘓狀態,且不會自動上線。由於raid控制器具有一定的面感性,多數硬碟掉線緊緊是因為電源波動、控制器bug等隨機原因導致,所以掉線盤可能沒有嚴重的物理故障。本案例就是如此。但是此時管理員進行強制上線操作風險性是很大的,一旦上線錯誤就會導致控制器對資料產生一些不可逆的損壞,當管理員進入作業系統後因為檔案系統不一致進行修復,伺服器中所有硬碟資料不一致,資料恢復難度非常大。

伺服器資料恢復過程:

首先對伺服器中所有硬碟進行完整備份,在備份過程中發現多塊硬碟已經存在壞道但沒有下線,原因是raid沒有讀到硬碟壞道。備份完成後分析原伺服器的raid組成結構然後虛擬出raid環境對raid結構畸形驗證,把伺服器後期破壞的結構進行人工修正,將修正後的資料匯出到一臺中間儲存上臨時存放。資料恢復的最後一步使用完好的硬碟在伺服器上搭建新的raid5磁碟陣列,將恢復出的資料遷移到新raid中即可。檢驗恢復出來的資料一切正常,資料成功恢復。

伺服器資料恢復結論:

一旦raid5磁碟陣列出現多塊硬碟離線、伺服器癱瘓的情況切記不要盲目進行強制上線操作,如果有足夠的備用空間,可將源硬碟全部映象。有兩種方法(WINDOWS2003或DOS下,其他作業系統有風險):
1、可用相同或大於源盤容量的硬碟做為目標盤,將源盤全部扇區方式CLONE到目標盤。將所有盤做同樣操作。
2、可將每塊源盤完全以扇區方式輸出檔案到某大容量儲存空間(如大容量硬碟、NAS、SAN、DAS等)

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31380569/viewspace-2213539/,如需轉載,請註明出處,否則將追究法律責任。

相關文章