遇到RAID5陣列硬碟出現問題的情況該如何解決?

北亞資料恢復發表於2019-07-15

故障描述

華為 S5300,12塊FC硬碟, 整個儲存 空間 450 GB和600G FC的硬碟組成,其中11塊硬碟組成一個RAID5的陣列,剩餘1塊做成熱 備盤使用。 由於 RAID5陣列中出現1塊硬碟故障,熱備盤成功啟用,在進行同步的過程中又一塊硬碟出現故障,因此導致RAID5陣列癱瘓,上層LUN無法正常使用。

恢復過程

、檢測磁碟

由於儲存是因為 RAID陣列中某些磁碟掉線,從而導致整個儲存不可用。因此接收到磁碟以後先對所有磁碟做物理檢測,檢測完後發現一塊硬碟有物理故障,其他硬碟沒有物理故障。

、備份資料

考慮到,資料的安全性以及可還原性,在做資料恢復之前需要對所有源資料做備份,以防萬一其他原因導致資料無法再次恢復。使用 dd命令或winhex工具將所有磁碟都映象成檔案

、故障分析

1 、分析故障原因

由於前兩個步驟並檢測到磁碟有物理故障,由此推斷可能是由於某些磁碟讀寫不穩定和物理故障導致故障發生。因為華為 S5300 控制器檢查磁碟的策略很嚴格,一旦某些磁碟效能不穩定, 華為 S5300 控制器就認為是壞盤,就將認為是壞盤的磁碟踢出 R AID組。而一旦 R AID組中掉線的盤到達到RAID級別允許掉盤的極限,那麼這個RAID組將變的不可用,上層基於RAID組的LUN也將變的不可用,之後又新建RAID,有一塊硬碟在同步的過程中被損壞,目前初步瞭解的情況為基於RAID組的LUN分配給linux系統使用,重要資料為Oracle 資料庫

2、分析RAID組結構

華為 S5300 儲存的 LUN都是基於RAID組的,因此需要先分析底層RAID組的資訊,然後根據分析的資訊重構原始的RAID組。分析每一塊資料盤, 發現一塊盤的資料同其它資料盤不太一樣,初步認為可能是 hot  Spare盤。接著分析其他資料盤,分析Oracle資料庫頁在每個磁碟中分佈的情況,並根據資料分佈的情況得出RAID組的條帶大小,磁碟順序及資料走向等RAID組的重要資訊。

3、分析RAID組被同步損壞盤

根據上述分析的 RAID資訊,嘗試通過北亞自主開發的RAID虛擬程式將原始的RAID組虛擬出來 。但由於整個 RAID組中掉線兩塊盤並且有一塊硬碟資料被同步損壞。仔細分析每一塊硬碟中的資料,發現有一塊硬碟在同一個條帶上的資料和其他硬碟明顯不一樣,因此初步判斷此硬碟可能是被同步掉損壞的硬碟,通過北亞自主開發的RAID校驗程式對這個條帶做校驗,因此可以明確被同步損壞盤了。

4、分析RAID組中的LUN資訊

由於 LUN是基於 RAID組的,因此需要根據上述分析的資訊將RAID組最新的狀態虛擬出來 。然後分析 LUN在RAID組中的分配情況,以及LUN分配的資料塊MAP。因此只需要將LUN的資料塊分佈MAP提取出來。然後針對這些資訊編寫相應的程式,LUN的資料MAP做解析,然後根據資料MAP並匯出LUN的資料。

解析 EXT3 檔案系統

1、 解析 EXT3檔案系統

  由於是使用熱備盤虛擬的 RAID結構,EXT3檔案系統無法正常掛載,所以只能提取oracle資料庫檔案,利用自主開發的檔案系統解析程式對其進行檔案系統的解析,匯出 o racle資料庫檔案,並把資料庫檔案移交給資料庫工程師進行校驗和驗證

檢測 Oracle資料庫檔案及修復

1 、檢測資料庫檔案是否完整

  使用 Oracle 資料庫檔案檢測工具檢測每個資料庫檔案是否完整,發現有錯誤。再使用北亞自主研發的 Oracle 資料庫檢測工具(檢驗更嚴格),發現有部分資料庫檔案和日誌檔案錯誤, system sysaux 表空間各存在 100 多壞塊; 3 個控制檔案都存在壞塊許多壞塊,控制檔案全部損壞; eschoolspace 表空間的 3 個檔案的壞塊更多,達到 1000 個; undotbs02 丟失;資料庫工程師對此類檔案進行修復,如下圖:

2 、修復 Oracle 資料庫

我們建立了控制檔案,建立 undo 表空間,啟動資料庫到 mount system 資料檔案壞塊使得資料庫不能 open 各種隱含引數也不能繞過 system 的壞塊;搭建資料庫環境。使用 dmp 檔案還原資料庫。使用 3 9 號之後的匯入,都報錯,大約只能匯入 10G 左右的資料,如下圖:

、資料驗證

  由使用者方配合,啟動 Oracle 資料庫,在本地虛擬機器安裝 OA 客戶端。通過 OA 客戶端對資料記錄進行驗證,並且使用者安排不同部門人員進行遠端驗證。

 

、資料恢復結論

由於故障發生後又重建 RAID ,導致一塊盤 的資料被同步損壞 ,對後期的資料恢復造成了困難。因為熱備盤同步了一段時間寫入了部分資料,所以使用熱備盤裡面的資料進行恢復,只能恢復部分資料,只有 3 9 日之前的資料。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31380569/viewspace-2650518/,如需轉載,請註明出處,否則將追究法律責任。

相關文章