【伺服器資料恢復】raid5強制上線離線硬碟失敗的資料恢復案例

北亞資料恢復發表於2023-04-03

伺服器資料恢復環境:

某公司網站伺服器,6塊SCSI硬碟組建raid5磁碟陣列;

伺服器上層:linux作業系統+EXT3檔案系統。


伺服器故障&分析:

伺服器在工作狀態下raid5磁碟陣列中的一塊硬碟由於未知原因離線。因為raid5中的一塊硬碟掉線並不會影響磁碟陣列的

正常工作,伺服器沒有出現異常,直到該raid5磁碟陣列中又有一塊硬碟掉線,伺服器癱瘓。

管理員發現服務故障後,對raid5磁碟陣列進行了檢查,但是不能確定這兩塊硬碟的離線順序,抱著碰運氣的想法選擇了

其中一塊離線硬碟嘗試強制上線操作。將這塊硬碟強制上線後發現作業系統啟動時出現異常,為了避免再次對資料造成破

壞,管理員將伺服器關機,之後沒有進行任何操作。

在過去十多年中,北亞企安資料恢復工程師們經常遇到類似的raid5故障:由於發現不及時或者第一塊硬碟掉線時不在意並

沒有及時處理,當第二塊硬碟甚至更多的硬碟掉線時,磁碟陣列徹底崩潰。第二塊磁碟掉線後對後離線的硬碟進行強制上

線具有一定的可操作性行,但是也有很大的風險。

強制上線最好由經驗豐富的管理員或者資料恢復工程師進行操作,而且強制上線之前必須做好備份工作。這個案例就是管

理員在沒有備份,也沒有搞清楚硬碟離線順序的情況下進行了強制上線操作,最終導致資料丟失,伺服器崩潰。


伺服器資料恢復過程:

1、將故障伺服器內的所有硬碟編號後取出,以只讀方式對所有硬碟進行映象備份。後續的資料分析和資料恢復操作都基

於映象檔案進行,避免對原始資料造成二次破壞。

2、在映象過程中發現除了已經掉線的兩塊硬碟外,其他沒有掉線硬碟存在壞道,由於這些硬碟沒有離線所以暫時沒有進

行特殊處理。

3、備份完成後基於映象檔案分析原raid5磁碟陣列的組成結構並虛擬重構raid5環境。

4、由於管理員對磁碟陣列進行過強制上線的操作,該操作破壞了部分資料結構。

5、驗證raid5結構後由北亞企安資料恢復工程師手工修復被破壞的那部分結構,匯出磁碟陣列內的所有資料。經過資料恢

復工程師和管理員的驗證,確認恢復出來的資料完整有效。

6、在資料恢復工程師的協助下,管理員在準備好的伺服器環境上重新搭建磁碟陣列並遷移資料。


伺服器資料恢復Tip:

1、伺服器發生故障後,切忌對伺服器進行操作;也不要隨意取出硬碟,以免弄亂盤序。

2、如果需要取出硬碟,標記好硬碟的順序之後再取出。

3、伺服器磁碟陣列癱瘓後應該立即斷電,不要做同步或強制上線操作,防止資料進一步破壞。

4、當伺服器由於未知原因的故障而導致系統崩潰或者檔案不識別/不可用時,通常不建議盲目地在伺服器上進行資料分析

和資料恢復操作。如果確實對自己的資料恢復技術有自信,必須先對原伺服器的所有硬碟資料進行映象備份,資料分析和

資料恢復操作只能在映象檔案上進行,避免操作失誤破壞原始資料,讓後續的資料恢復難度增加。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31380569/viewspace-2943449/,如需轉載,請註明出處,否則將追究法律責任。

相關文章