【伺服器資料恢復】磁碟壞道故障導致RAID5崩潰的資料恢復案例

北亞資料恢復發表於2023-01-10

伺服器資料恢復環境:

某單位一臺某品牌DS系列伺服器連線4個擴充套件櫃;

50塊磁碟組建兩組RAID5,其中一組由27塊磁碟組建的RAID5存放的是Oracle資料庫檔案;

上層一共劃分11個卷。


伺服器故障:

磁碟故障導致存放Oracle資料庫檔案的RAID5崩潰,伺服器不可用。


伺服器資料恢復過程:

硬體工程師先對故障伺服器的27塊磁碟進行硬體故障檢測,發現其中的2塊磁碟存在壞道,SMART錯誤冗餘級別已經超過

閾值。 對另外的25塊無硬體故障的磁碟做全盤映象,對2塊有壞道的磁碟進行恢復並生成映象檔案。

收集故障伺服器的日誌資訊並進行分析,查明兩塊存在壞道的磁碟掉線先後順序,用後掉線的磁碟進行資料恢復。

經過北亞資料恢復工程師團隊會診最終敲定兩套資料恢復方案:

方案一:把故障伺服器所有硬碟都備份後透過該品牌自帶儲存管理軟體強制上線。

方案二:透過分析硬碟底層獲取raid相關資訊,利用獲取到的資訊重組RAID,提取資料並重新載入oracle資料庫,除錯上層應

用。

執行第一套方案,先在模擬器上測試,測試完成後透過該品牌自帶的儲存管理軟體進行強制上線。強制上線後發現raid處於降

級狀態,這時設定好熱備盤上線並開始同步資料,同步完之後發現上層的卷已經可以直接使用,所有資料可見,上層應用可正

常使用。

雖然上層的卷可以使用,資料也都可見,但是出於安全考慮,北亞資料恢復工程師將卷裡的檔案都複製出來移交給使用者,經過

使用者反覆測試後確認恢復資料完整可用。


Tips:

1、伺服器發生故障後,切忌對伺服器進行操作;也不要隨意取出硬碟,以免弄亂盤序。

2、如果需要取出硬碟,標記好硬碟的順序之後再取出。

3、伺服器陣列癱瘓後應該立即斷電,不要做同步或強制上線操作,防止資料進一步破壞。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31380569/viewspace-2931532/,如需轉載,請註明出處,否則將追究法律責任。

相關文章