【伺服器資料恢復】raid5故障導致上層應用崩潰的資料恢復案例

北亞資料恢復發表於2023-02-22

伺服器資料恢復環境:

華為s系列伺服器;

24塊硬碟組成一組raid5磁碟陣列,其中包含1塊熱備盤。


伺服器故障&檢測:

伺服器工作狀態下raid5中有一塊硬碟離線,熱備盤啟用替換離線硬碟並開始進行資料同步,在同步的過程中該raid5陣列內

的另一塊硬碟由於未知原因離線,上層應用崩潰,伺服器內的資料丟失。

拿到故障伺服器內的所有硬碟後,硬體工程師對所有硬碟進行物理故障檢測,發現除了其中的一塊硬碟外,其他硬碟均可以

正常讀取無物理故障。


伺服器資料恢復過程

1、將故障伺服器內所有硬碟以只讀方式做完整的映象備份,後續資料分析和資料恢復操作都基於映象檔案進行,避免對原

始資料造成二次破壞。

2、由於華為s系列伺服器的控制器的磁碟檢測策略非常嚴格。對於沒有物理故障但效能不穩定的硬碟,控制器會將其視作壞

盤踢出陣列。之前檢測到只有一塊硬碟存在物理故障,因此故障伺服器中掉線的兩塊盤中另外一塊是因為讀寫不穩定被視作

壞盤踢出而掉線。

3、對每一塊硬碟底層進行分析,獲取到raid陣列的條帶大小、資料走向、硬碟順序、熱備盤、資料庫的分佈規律等raid相關

資訊。根據分析獲取到的raid陣列資訊重組raid。

4、根據分析獲取到的陣列相關資訊,使用北亞企安自主研發的工具重組原始raid5陣列。

5、在重組過程中發現有一塊硬碟內的資料在同步時候被破壞。由於在資料恢復過程中需要將資料被損壞的硬碟排除,於是數

據恢復工程師對所有硬碟進行了底層資料結構的對比。對比發現其中一塊硬碟在相同條帶上的資料與其他硬碟明顯不同。

6、使用北亞自主研發的raid校驗程式對該硬碟進行條帶校驗,確認該硬碟資料已經在同步的時候被破壞。排除這塊硬碟後重

組raid5磁碟陣列。

7、完成raid陣列重組後,分析lun在raid中的分配情況及資料塊map。只要能將map完整提取出來,就可以進行解析並提取

lun資料。

8、北亞企安資料恢復工程師編寫檔案系統解析程式對陣列內檔案系統進行解析並匯出資料庫檔案。

9、由資料庫工程師對提取的資料庫檔案進行校驗和修復。資料庫工程師對資料庫檔案進行驗證後發現部分資料庫檔案及日

志檔案異常,表空間記憶體在大量壞塊、所有控制檔案被破壞,undotbs02丟失,資料庫工程師對資料庫檔案進行了修復。

修復過程:




資料驗證:

經過資料庫工程師對資料庫檔案的修復和驗證,最終恢復出所有的資料庫檔案。伺服器資料恢復工程師將修復成功的資料庫

資料匯入到準備好的環境中進行驗證,所有資料正常。聯絡使用者親自對資料進行驗證均無異常。本次資料恢復工作完成。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31380569/viewspace-2936381/,如需轉載,請註明出處,否則將追究法律責任。

相關文章