【伺服器資料恢復】raid5熱備盤同步失敗的資料恢復案例

北亞資料恢復發表於2023-04-07

伺服器資料恢復環境:

IBM某型號伺服器中6塊硬碟搭建的raid5磁碟陣列,其中1塊盤作為熱備盤使用。

上層部署的是SAP應用+Oracle資料庫。


伺服器故障&檢測:

伺服器中RAID5磁碟陣列中的1塊盤出現故障離線,熱備盤啟用替換離線硬碟,在進行資料同步的過程中又有一塊硬碟故障

離線,RAID5磁碟陣列癱瘓,上層LUN不可用,伺服器崩潰。

IBM伺服器中的LUN是基於RAID組的。分析故障raid5中的所有硬碟,發現其中一塊盤的資料同其它盤有明顯不同,初步判

斷這塊盤就是HotSpare盤。分析其他盤以及Oracle資料庫頁在每個磁碟中的分佈情況,獲取到該RAID5的條帶大小、磁碟

順序及資料走向等RAID相關資訊。利用獲取到的raid相關資訊虛擬重構RAID5,然後分析LUN在RAID5中的分配情況以及

LUN分配的資料塊MAP。只需要將LUN的資料塊分佈MAP提取出來,針對這些資訊編寫相應的程式,解析LUN的資料MAP

,然後根據資料MAP匯出LUN的資料即可恢復資料。


伺服器資料恢復過程:

一、恢復Oracle資料庫資料。

1、將包含Oracle資料庫資料的LUN進行JFS2檔案系統解析,人工修復檔案系統的不完整部分。

2、利用北亞企安自主開發的JFS2檔案系統解析工具解析修復完成的LUN,然後恢復檔案系統中所有的Oracle資料庫檔案。

3、檢測Oracle資料庫檔案的完整性。針對檢測有壞塊的資料庫檔案,透過掃描所有硬碟找到所有Oracle碎片,組合掃描到

的資料頁,人工將有壞塊的資料庫檔案修復完整。

4、恢復完所有Oracle資料庫之後,發現SAP應用還是無法正常使用。經過分析發現SAP應用的一些重要資料也是存放在損

壞的儲存中,如果沒有這些重要的資料,即使在Oracle資料庫完整的情況下SAP應用也無法正常使用。


二、恢復SAP應用資料。

1、對恢復出來的所有LUN都進行檔案系統解析,將包含SAP應用資料的LUN進行檔案系統的一致性檢測。人工修復檔案系

統不完整部分,直至恢復出所有SAP及SAP Test的資料。

2、檢測恢復出來的SAP應用資料,對損壞的SAP應用資料進行修復,直至所有SAP資料都完整,只有這樣才能保證SAP應

用能夠正常使用。

3、SAP資料修復完成後,結合之前恢復出來的Oracle資料庫,即可啟動SAP應用了。


三、啟動並修復Oracle資料庫及SAP應用

1、啟動資料庫並修復。

把恢復的Oracle資料庫檔案還原到已搭建好的環境中,並嘗試啟動Oracle資料庫。在啟動過程中由於資料庫一些臨時檔案

的校驗不一致導致資料庫啟動失敗。聯絡Oracle資料庫工程師對資料庫進行修復,修復完成後Oracle資料庫啟動成功,經

過反覆驗證確認資料庫中的所有使用者及所有表均完整,然後嘗試啟動SAP。

2、啟動SAP並修復。

將恢復出來的SAP資料還原到已搭建好的環境中並啟動SAP,SAP啟動正常,但SAP中的使用者許可權及使用異常,SAP表現為

沒有序列號。北亞企安資料恢復工程師初步判斷是因為SAP的註冊檔案沒有恢復出來。重新檢測恢復過程,排查可能疏忽

的地方,結果發現確實因為檔案系統損壞導致某些檔案沒有恢復出來。重新修復檔案系統並恢復這些資料,然後啟動並檢

查SAP,結果一切正常。

3、在使用者方工程師配合下啟動伺服器內的Oracle資料庫和SAP,透過SAP客戶端反覆驗證SAP中所有的資料,沒有發現任

何問題,恢復出來的資料完整可用。本次資料恢復任務完成。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31380569/viewspace-2944377/,如需轉載,請註明出處,否則將追究法律責任。

相關文章