raid5陣列2塊硬碟掉線應該資料恢復還是強制上線

北亞資料恢復發表於2019-05-08

磁碟陣列兩塊硬碟離線資料恢復案例一:

客戶的一臺伺服器因為未知的原因導致一塊硬碟紅燈閃亮,不過伺服器還在正常執行,管理員未做處理,隨後該伺服器內的另一塊硬碟出現同樣的報警提示,伺服器崩潰。資料恢復工程師對該磁碟陣列資料恢復過程如下(下列操作有風險,請備份後再操作):

  1. 將伺服器啟動,伺服器自檢時手動進入管理程式檢視raid磁碟陣列情況,發現硬碟的狀態為Failel,手動將其中一塊離線硬碟重新設定為online狀態後嘗試重啟伺服器但重啟失敗。

  2. 將該硬碟重新Fail掉,重複上次的操作步驟將另一塊硬碟上線,啟動伺服器,伺服器啟動成功。

  3. 檢查系統和伺服器內的資料庫資料執行是否正常,然後用陣列配置工具把Failed後的盤手動rebuild,待rebuild完成後伺服器及raid磁碟陣列系統就恢復原狀了。

磁碟陣列兩塊硬碟離線資料恢復案例二:

本案例中需要進行資料恢復的伺服器為某品牌的 2850型號。伺服器內有一組6塊硬碟的raid5磁碟陣列,陣列內的硬碟為SCSI硬碟,單盤容量為300G,伺服器作業系統為linux Redhat4;檔案系統為ext3檔案系統。伺服器在正常使用過程中由於未知原因有兩塊硬碟離線,管理員使用了案例一中提到的方法對其中一塊硬碟進行強制上線操作。但經過嘗試發現伺服器的作業系統啟動異常,無法透過強制上線方式恢復資料,於是聯絡到北亞資料恢復中心進行專業伺服器資料恢復操作。

資料恢復工程師對客戶伺服器進行扇區級別的完整備份,在備份過程中發現該伺服器內的一塊並未離線的硬碟居然存在大量壞道,可能由於伺服器尚未讀到硬碟的壞道部分,因此尚未離線。

備份工作完成後對raid陣列結構分析並重組raid環境驗證raid結構,透過人工的方式對被破壞的結構進行修正並存檔。最後將修正和存檔的資料嵌入一臺正常的伺服器陣列上即可進行資料驗證。

在伺服器資料恢復工作中我們遇到了大量的raid5磁碟陣列兩塊硬碟同時離線的故障。其實raid5陣列是支援一塊硬碟離線時的冗餘保護的,一組raid5陣列在一塊硬碟離線時是不會導致伺服器癱瘓的,但如果是兩塊甚至多塊硬碟處於離線狀態時伺服器便處於癱瘓狀態並且無法自動上線。由於raid控制器具有一定的敏感性,多數硬碟掉線僅僅是因為電源波動、控制器bug等隨機原因導致,所以掉線盤可能沒有嚴重的物理故障。本案例就是如此。但是此時管理員進行強制上線操作風險性是很大的,一旦上線錯誤就會導致控制器對資料產生一些不可逆的損壞,當管理員進入作業系統後因為檔案系統不一致進行修復,伺服器中所有硬碟資料不一致,資料恢復難度非常大。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31380569/viewspace-2643707/,如需轉載,請註明出處,否則將追究法律責任。

相關文章