資料恢復經典案例分析-raid兩塊硬碟離線恢復

北亞資料恢復發表於2018-12-03

磁碟陣列兩塊硬碟離線資料恢復案例一:

  客戶使用 Dell 2850 伺服器組建了 raid5 磁碟陣列,陣列中包含有 6 塊硬碟( SCSI 硬碟,單盤容量 300G ),伺服器作業系統為 linux Redhat4 ;檔案系統為 ext3 檔案系統。在使用過程中伺服器癱瘓,管理員對陣列檢查後發現有兩塊硬碟離線,對其中一塊硬碟進行了強制上線操作,但作業系統啟動異常。管理員此時意識到事情的嚴重程度,馬上對伺服器進行關機,然後聯絡到資料恢復中心進行資料恢復。

 資料恢復中心初檢結論:

  在伺服器資料恢復工作中, raid5 兩塊硬碟離線的情況十分常見,由於 raid5 磁碟陣列支援一塊硬碟離線時的榮譽保護,一旦多塊硬碟處於離線狀態,伺服器便處於癱瘓狀態,且不會自動上線。由於 raid 控制器具有一定的面感性,多數硬碟掉線緊緊是因為電源波動、控制器 bug 等隨機原因導致,所以掉線盤可能沒有嚴重的物理故障。本案例就是如此。但是此時管理員進行強制上線操作風險性是很大的,一旦上線錯誤就會導致控制器對資料產生一些不可逆的損壞,當管理員進入作業系統後因為檔案系統不一致進行修復,伺服器中所有硬碟資料不一致,資料恢復難度非常大。

 伺服器資料恢復過程:

  首先對伺服器中所有硬碟進行完整備份,在備份過程中發現多塊硬碟已經存在壞道但沒有下線,原因是 raid 沒有讀到硬碟壞道。備份完成後分析原伺服器的 raid 組成結構然後虛擬出 raid 環境對 raid 結構畸形驗證,把伺服器後期破壞的結構進行人工修正,將修正後的資料匯出到一臺中間儲存上臨時存放。資料恢復的最後一步使用完好的硬碟在伺服器上搭建新的 raid5 磁碟陣列,將恢復出的資料遷移到新 raid 中即可。檢驗恢復出來的資料一切正常,資料成功恢復。

 伺服器資料恢復結論:

  一旦 raid5 磁碟陣列出現多塊硬碟離線、伺服器癱瘓的情況切記不要盲目進行強制上線操作,如果有足夠的備用空間,可將源硬碟全部映象。有兩種方法( WINDOWS2003 DOS 下,其他作業系統有風險):

1 、可用相同或大於源盤容量的硬碟做為目標盤,將源盤全部扇區方式 CLONE 到目標盤。將所有盤做同樣操作。

2 、可將每塊源盤完全以扇區方式輸出檔案到某大容量儲存空間(如大容量硬碟、 NAS SAN DAS 等)

磁碟陣列兩塊硬碟離線資料恢復案例二:

  HP LH6000 的故障如下 : 一塊硬碟紅燈閃亮,機器還在正常執行,但沒有多久,系統就不能正常執行,這時才發現另一塊硬碟的紅燈也在閃亮。

 磁碟陣列資料恢復過程:

1. 啟動伺服器,自檢至陣列時按 Ctrl+M 進入 NetRaid 管理程式。檢視陣列資訊,發現硬碟狀態為 Failed ,運用修改配置將一硬碟強行設定成 OnLine 。重新啟動伺服器,在進入系統前的硬體自檢時無效,啟動失敗。

2. 啟動伺服器,自檢至陣列時按 Ctrl+M 進入 NetRaid 管理程式。選擇磁碟陣列,將原來 OnLine 掛起來的硬碟手工 Fail 掉,然後再把另一塊 Failed 的硬碟手工設定成 OnLine ,重新啟動伺服器就可以進入系統了。

3. 檢視系統及資料庫都執行正常後,再進陣列配置工具把 Failed 的硬碟手工設定成 Rebuild 100% 完成重建後再重啟伺服器,所有的陣列及系統都恢復原狀了。

  筆者所在單位另一臺執行 ERP 系統的伺服器 (HP ProLiant 文明用語 370) ,由 4 146GB 熱插拔硬碟透過 RAID (Smart array 陣列卡 ) 配置成一臺具有 RAID 5 級的磁碟陣列。其中一塊硬碟在執行過程中突然出現故障。伺服器 RAID 5 自動啟用熱備份硬碟 (Hot Spare) ,對損壞硬碟進行邏輯替代。整個硬碟的資料訪問任務仍然完整地執行在原來的讀寫程式序列中,應用程式和資料庫沒有發生影響。

  透過 HP 自帶的 ACU 工具檢視硬碟狀態進行檢查,發現紅燈示警的硬碟處於離線狀態。如果 HP ProLiant 伺服器中的 Raid 5 有兩塊硬碟出現亮紅燈時,表明系統已經崩潰,資料庫也就不能訪問,但系統不會自動關機。當第二塊硬碟亮紅燈後,用常規的手段是不能恢復資料的,只有付費找專業的第三方資料恢復公司恢復資料。

  因此,對惠普老型號 HP LH6000 系列伺服器來說,陣列的設計方面與現在 HP ProLiant 系列伺服器的陣列有很多不同。就操作方法看, HP LH6000 伺服器的陣列操作方法有很多可選項,包括陣列失敗後可以重新刪除陣列並重建等,初始化也是手工選擇的。但是 HP ProLiant 系列伺服器陣列的初始化是在配置陣列後自動在後臺執行的,所以 ProLiant 系列伺服器在陣列出錯後是不能重配陣列的。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31380569/viewspace-2222529/,如需轉載,請註明出處,否則將追究法律責任。

相關文章