【資料庫資料恢復】SAP資料庫資料恢復案例

北亞資料恢復發表於2022-05-05

伺服器資料恢復環境:


6塊SAS硬碟中的5塊硬碟組成一個RAID5的陣列,1塊作為熱備盤使用。



伺服器故障:


RAID5中1塊硬碟故障,熱備盤啟用開始同步資料,在同步資料過程中又有一塊硬碟故障離線,導致RAID5癱瘓,上層LUN

無法正常使用。



伺服器故障檢測和備份:


1、檢測磁碟。初步判斷是RAID陣列中某些磁碟掉線導致儲存不可用。因此在接收到磁碟以後先對所有磁碟做物理檢測,檢

測發現只有一塊硬碟有物理故障。


2、備份資料。將所有磁碟都映象成檔案,備份過程中也沒有發現其他磁碟物理故障。



伺服器故障分析:


1、分析故障原因


因為IBM儲存控制器對於磁碟的檢測策略很嚴格,磁碟效能不穩定也會被IBM儲存控制器判定為壞盤並踢出RAID組。因此檢

測出的故障磁碟有可能是讀寫不穩定,也有可能存在物理故障。而一旦RAID中掉線盤數超過這組RAID本身允許掉盤的最大

數量,那麼這個RAID組將不可用,基於RAID組的LUN也將不可用,因此導致資料丟失。


2、分析RAID組結構


IBM儲存的LUN都是基於RAID組的,因此需要先分析底層RAID組的資訊,然後利用分析獲取到的資訊重構原RAID組。分析

每一塊資料盤,如果那塊盤的資料同其它資料盤不太一樣,可以初步認定為HotSpare盤。分析其他資料盤,分析Oracle資料

庫頁在每個磁碟中分佈的情況,並根據資料分佈的情況得出RAID組的條帶大小,磁碟順序及資料走向等RAID組的重要資訊。


3、分析RAID組中的LUN資訊


由於LUN是基於RAID組的,因此需要根據上述獲取到的資訊將RAID組虛擬重組出來,然後分析LUN在RAID組中的分配情況

,以及LUN分配的資料塊MAP。只需要將LUN的資料塊分佈MAP提取出來。然後針對這些資訊編寫相應的程式,對LUN的數

據MAP做解析,然後根據資料MAP匯出LUN的資料。



伺服器資料恢復解決方案:


1、實施方案一


對恢復的包含Oracle資料庫的LUN進行JFS2檔案系統解析,並對檔案系統不完整的部分進行人工修復。利用北亞自主開發的

JFS2檔案系統解析工具解析恢復的LUN,然後恢復檔案系統中所有的Oracle資料庫檔案,並檢測Oracle資料庫的檔案是否完

整。對檢測有壞塊的資料庫檔案所在磁碟進行掃描Oracle碎片操作,將掃描到的資料頁進行組合,然後將有壞塊的資料庫文

件通過人工的方式填補修復完整。在完成所有Oracle資料庫檔案的恢復之後,應用SAP還是無法正常使用。SAP應用的一些

重要資料存放在損壞的儲存中,缺失這些資料會導致SAP即使在資料庫完整的情況下也無法正常使用,因此還需採用方案二

來恢復所有SAP的重要資料。


2、實施方案二


對恢復出來的所有LUN進行檔案系統解析,將包含SAP的資料LUN進行檔案系統的一致性檢測。對檔案系統不完整的部分進

行人工修復,最後恢復所有SAP及SAP Test的資料。對SAP的資料進行檢測,並對損壞的資料進行修復,確保恢復出來的

SAP資料是完整的,這樣才能保證SAP應用能夠完整啟動。利用恢復的SAP資料結合之前恢復出來的Oracle資料庫,即可啟

動SAP及所有應用。

啟動並修復Oracle資料及SAP應用:


1、啟動Oracle資料庫並修復


把恢復出來的資料庫檔案還原到已搭建好的環境中,並嘗試啟動資料庫。在啟動過程中由於資料庫的一些臨時檔案校驗不一

致導致資料庫啟動失敗。北亞資料恢復中心協調Oracle資料庫工程師遠端對資料庫進行修復後,資料庫正常啟動,資料完整

,然後嘗試啟動SAP。


2、啟動SAP並修復


將恢復的SAP檔案還原至已搭建好的環境中,並按照之前的啟動指令碼啟動SAP,SAP啟動正常,但SAP中使用者許可權及使用不正

常,SAP表現為沒有序列號。初步判斷是SAP的註冊檔案沒有恢復,重新檢測恢復過程,排查可能出問題的部分。排查後發現

是因為檔案系統的損壞而導致某些檔案沒有恢復成功。重新修復檔案系統,恢復這些資料。啟動SAP正常,使用正常。


資料驗證:


啟動Oracle資料庫,啟動SAP,通過SAP客戶端驗證SAP中所有的資料,資料恢復完整,SAP能正常使用。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31380569/viewspace-2890740/,如需轉載,請註明出處,否則將追究法律責任。

相關文章