【北亞資料恢復】DELL POWEREDGE 2850伺服器RAID5兩塊硬碟掉線後系統癱瘓的資料恢復

北亞資料恢復發表於2022-01-20

環境:

DELL POWEREDGE 2850伺服器,

6塊300G SCSI硬碟組成RAID5,

作業系統LINUX REDHAT, EXT3。

故障:

最早一塊硬碟離線,管理員沒發現,直到另一塊硬碟掉線導致系統癱瘓才發現故障。聯絡DELL官方客服,對方建議將其中一塊

硬碟強制上線,但同時指出操作有風險。管理員將某盤強制上線後,發現作業系統啟動異常,於是關掉伺服器,聯絡北亞資料

恢復中心尋求幫助。


故障分析:

RAID5僅支援一塊硬碟掉線的冗餘保護,當兩塊硬碟先後離線後,RAID5無法透過運算提供完整資料塊,RAID5便會下線。

控制器為了穩定起見,只要有硬碟下線,便不會自動上線,這樣不透過人為干預,RAID會進入癱瘓狀態。通常情況下,因

RAID控制器的敏感性,掉線的硬碟多數不會有嚴重的物理問題,一般情況下硬碟都是完好的(掉線是因為訊號受阻,電源

波動或控制器BUG等隨機原因),所以資料恢復的可能性較高。強制上線具有較大的風險,如果上線錯誤,會導致控制器

自動做出一些不可逆操作,如果再進入作業系統,因檔案系統不一致,會啟動修復,繼而導致全部硬碟資料不一致,本案例

即是屬於此類問題。


資料恢復過程:

1、北亞資料恢復工程師備份所有硬碟,在備份後發現有多塊硬碟已經存在壞道,只是RAID沒有讀到,暫時沒有下線。

2、北亞資料恢復工程師在備份中分析原來RAID的組成結構,構建虛擬RAID環境。

3、驗證RAID結構正確,修正部分後期破壞的結構後將資料匯出到另一中間儲存。

4、北亞資料恢復工程師重新用完好硬碟搭建DELL 2950上的新RAID5,將資料遷移至新RAID。

歷時2天完成資料恢復。從上千萬檔案中抽樣檢測,絕大多數沒有問題。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31380569/viewspace-2853145/,如需轉載,請註明出處,否則將追究法律責任。

相關文章