【伺服器資料恢復】某品牌MSA SAN儲存資料恢復案例

北亞資料恢復發表於2022-07-13

伺服器資料恢復環境:

某品牌MSA SAN Storage儲存;

共8塊SAS硬碟:7塊硬碟組成RAID5,1塊熱備盤;

基於RAID5的LUN有6個,均分配給HP-Unix小機使用,上層做的LVM邏輯卷,重要資料為Oracle資料庫及OA服務端。


伺服器故障:

RAID5有2塊硬碟損壞,只有一塊熱備盤啟用,RAID5癱瘓,上層LUN無法使用。伺服器管理員聯絡我們資料恢復中心進行

資料恢復。


伺服器資料恢復過程:

1、北亞伺服器資料恢復工程師收到硬碟以後檢測所有硬碟沒有發現物理故障,使用硬碟壞道檢測工具檢測也沒有發現壞道。


2、備份資料。使用工具將所有硬碟都映象成檔案。





3、故障分析:

由於硬碟沒有發現壞道和其他物理故障,伺服器資料恢復工程師初步判斷RAID故障的原因是某些磁碟讀寫不穩定。因為該型

號儲存控制器的磁碟檢測策略嚴格,會把效能不穩定磁碟認定為壞盤並踢出RAID組。一旦掉線的盤超過該RAID允許掉盤的極

限,該RAID將不可用,上層基於RAID的LUN也會不可用。


4、分析RAID結構:

該儲存的LUN都是基於RAID的,因此需要先分析底層RAID資訊,然後根據分析獲取到的資訊重構原始RAID。伺服器資料恢

復工程師經過分析發現4號盤的資料同其他盤不太一樣,初步判斷該盤是hot Spare盤。接著分析其他盤,分析Oracle資料庫

頁在每個磁碟中分佈的情況,並根據資料分佈的情況分析出RAID條帶大小、磁碟順序、資料走向等

RAID資訊。


5、分析RAID掉線盤:

根據分析獲取到的RAID資訊使用北亞自主開發的RAID虛擬程式將原始的RAID虛擬重構。但由於該RAID一共掉線兩塊盤,

因此需要分析這兩塊硬碟掉線的順序。伺服器資料恢復工程師分析每一塊硬碟中的資料後發現有一塊硬碟在同一個條帶上

的資料和其他硬碟明顯不一樣,初步判斷此盤是最先掉線的。通過北亞自主開發的RAID校驗程式對這個條帶做校驗,最終

確定最先掉線的硬碟了。


6、分析RAID中的LUN資訊:

由於LUN是基於RAID的,將RAID虛擬重構出來以後分析LUN在RAID中的分配情況和LUN分配的資料塊MAP。只需要將

每一個LUN的資料塊分佈MAP提取出來,然後針對這些資訊編寫相應的程式對所有LUN的資料MAP做解析,然後根據數

據MAP匯出所有LUN的資料即可。





7、解析LVM邏輯卷:

對匯出來的LUN資料做分析發現所有LUN中均包含HP-Unix的LVM邏輯卷資訊。通過解析每個LUN中的LVM資訊發現一共

有三個LVM,一個LVM中劃分了一個LV,存放OA伺服器端的資料;另外一個LVM中劃分了一個LV,存放臨時備份資料;

剩餘4個LUN組成一個LVM,劃分了一個LV,存放Oracle資料庫檔案。北亞伺服器資料恢復工程師編寫LVM解釋程式將每

個LVM中的LV卷解釋出來,但解釋程式出錯。


8、修復LVM邏輯卷:

分析程式報錯的原因,開發工程師debug程式出錯的位置。檔案系統工程師對恢復出來的LUN做檢測,檢測儲存癱瘓是否

會導致LMV邏輯卷的資訊損壞。經過檢測發現儲存癱瘓確實導致LVM資訊損壞。人工對損壞的區域進行修復,並同步修改

程式,重新解析LVM邏輯卷。


9、解析VXFS檔案系統:

搭建HP-Unix環境,將解釋出來的LV卷對映到HP-Unix,並嘗試Mount檔案系統。結果Mount檔案系統出錯,嘗試使用

“fsck –F vxfs” 命令修復vxfs檔案系統,但修復後還是不能掛載。分析可能是底層vxfs檔案系統的部分後設資料可能被破

壞,需要進行手工修復。


10、修復VXFS檔案系統:

伺服器資料恢復工程師對解析出來的LV進行分析,根據VXFS檔案系統的底層結構校驗此檔案系統是否完整。經過分析發

現底層VXFS檔案系統有問題,儲存癱瘓的同時檔案系統正在執行IO操作,部分檔案系統元檔案損壞。手工修復這些損壞

的元檔案保證VXFS檔案系統能夠正常解析。將修復好的LV卷掛載到HP-Unix小機上嘗試Mount檔案系統,檔案系統沒有

報錯,成功掛載。

11、恢復所有使用者檔案:

在HP-Unix機器上mount檔案系統後將所有資料均備份至指定磁碟空間。





12、檢測資料庫檔案是否完整:

使用Oracle資料庫檔案檢測工具檢測每個資料庫檔案是否完整,沒有發現錯誤。使用北亞自主研發的Oracle資料庫檢測

工具檢測,發現有部分資料庫檔案和日誌檔案校驗不一致,安排資料庫工程師對此類檔案進行修復並再次校驗,直到所有

檔案通過校驗。


13、啟動Oracle資料庫:

將恢復出來的Oracle資料庫附加到原始生產環境的HP-Unix伺服器中嘗試啟動Oracle資料庫,Oracle資料庫啟動成功。





資料驗證:

啟動Oracle資料庫和OA服務端,在本地電腦安裝OA客戶端,通過OA客戶端對最新的資料記錄以及歷史資料記錄進行驗證

,並且安排不同部門人員進行遠端驗證。經過驗證確認資料完整無誤,資料恢復成功。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31380569/viewspace-2905544/,如需轉載,請註明出處,否則將追究法律責任。

相關文章