【伺服器資料恢復】華為OceanStor伺服器熱備盤同步資料失敗的資料恢復案例

北亞資料恢復發表於2022-04-19

伺服器資料恢復環境:

華為OceanStor系列伺服器;

24塊硬碟組成一組raid5盤陣,其中一塊硬碟為熱備盤。


伺服器故障情況:

伺服器執行過程中有一塊硬碟離線,熱備盤啟用上線進行資料同步,在資料同步的過程中伺服器內另一塊硬碟因未知故障

離線,伺服器上層應用崩潰,伺服器資料丟失。伺服器管理員聯絡資料恢復中心尋求幫助。



伺服器資料恢復過程:

1、資料恢復中心接到該故障伺服器所有硬碟後馬上對每塊硬碟進行硬體故障檢測,最終發現只有一塊硬碟存在物理

故障。伺服器資料恢復工程師對所有硬碟做了映象備份。

2、分析伺服器故障原因。

由於華為s系列伺服器的控制器檢查磁碟的策略相當嚴格,對於無物理故障但效能不穩定的硬碟會當作壞盤處理,踢出raid

陣列。經過物理故障檢測發現只有一塊硬碟存在物理故障,因此該伺服器掉線的兩塊盤中另外一塊硬碟掉線是因為讀寫不

穩定被踢出。

3、分析伺服器raid結構。

恢復lun首先需要分析底層的raid結構資訊,根據分析獲取的raid資訊重組raid。伺服器資料恢復工程師對每一塊硬碟進行

分析,獲取到raid陣列的條帶大小、資料走向、硬碟順序、熱備盤、資料庫的分佈規律等基礎資訊。



4、透過校驗排查伺服器內被同步硬碟。

根據已經獲取到的伺服器陣列資訊,資料恢復工程師使用自主研發的raid虛擬程式進行raid重組。資料恢復工程師將所有

硬碟進行底層資料結構對比,發現了其中一塊硬碟在相同條帶上的資料與其他硬碟明顯不同,使用北亞自主研發的raid校

驗程式對該硬碟進行條帶校驗後確認該硬碟已被同步破壞。伺服器資料恢復工程師重組raid陣列後分析lun在raid組中的分

配情況及資料塊map,只要能夠完整的將map提取就可恢復lun資料。

5、提取伺服器內資料庫檔案並修復資料庫。

伺服器資料恢復工程師自主編寫了檔案系統解析程式對虛擬陣列內的檔案系統進行解析,匯出資料庫檔案後移交資料庫工

程師進行校驗和修復。

資料庫工程師對資料庫檔案進行驗證發現部分資料庫檔案及日誌檔案異常。表空間記憶體在大量壞塊,所有控制檔案被破壞,

undotbs02丟失,資料庫工程師只好對資料庫檔案進行修復,修復過程見下圖:



伺服器資料恢復驗證:

經過資料庫工程師對資料的修復和驗證,最終成功恢復資料庫資料,工程師將修復成功的資料庫資料匯入資料恢復專用服

務器進行驗證,所有資料正常,聯絡使用者親自進行現場資料驗證,確認恢復出來的資料沒有問題。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31380569/viewspace-2887716/,如需轉載,請註明出處,否則將追究法律責任。

相關文章