【伺服器資料恢復】raid5崩潰導致lvm資訊和VXFS檔案系統損壞的資料恢復案例
伺服器資料恢復環境:
8塊SAS硬碟中的7塊硬碟組成RAID5陣列,1塊作為熱備盤。
伺服器故障:
故障伺服器儲存中的RAID5陣列有2塊硬碟損壞離線,RAID5陣列癱瘓,影響上層LUN無法正常使用。管理員聯絡我們資料
恢復中心進行資料恢復,硬體工程師檢測硬碟沒有發現物理故障和壞道。
伺服器資料恢復過程:
1、備份資料。使用資料恢復工具將所有磁碟映象備份。
2、分析RAID結構。
故障伺服器的LUN都是基於RAID的,需要先分析底層RAID的資訊,再依據分析獲取到的raid相關資訊重構原始RAID。透過
分析獲知4號盤為hot Spare盤。分析Oracle資料庫頁在每個磁碟中的分佈情況得出RAID組的條帶大小,磁碟順序及資料走
向等RAID組的重
要資訊。
3、分析RAID掉線盤。
利用分析獲取到的RAID資訊,透過北亞自主開發的RAID虛擬程式將原始的RAID擬出來。仔細分析每一塊硬碟中的資料,
透過北亞自主開發的RAID校驗程式對條帶做校驗,將最先掉線的硬碟剔除出raid。
4、分析RAID組中的LUN資訊。
將RAID最新的狀態虛擬出來以後分析LUN在RAID中的分配情況和LUN分配的資料塊MAP。只需要將底層6個LUN的資料塊
分佈MAP提取出來,然後針對這些資訊編寫相應的程式對所有LUN的資料MAP做解析,根據資料MAP匯出所有LUN的資料。
5、解析LVM邏輯卷。
分析生成出來的所有LUN,發現所有LUN中均包含HP-Unix的LVM邏輯卷資訊。嘗試解析每個LUN中的LVM資訊,發現一共
有三套LVM:其中一套LVM中劃分了一個LV,存放OA伺服器端的資料,另外一套LVM中劃分了一個LV,存放臨時備份資料
。其他4個LUN組成一套LVM並劃分了一個LV,存放Oracle資料庫檔案。北亞資料恢復工程師編寫解釋LVM的程式嘗試將每
套LVM中的LV卷解釋出來,但解釋程式出錯。
6、修復LVM邏輯卷。
仔細分析報錯的原因,由開發工程師debug程式出錯的位置並由高階檔案系統工程師檢測恢復出來的LUN,檢測儲存癱瘓是
否導致LMV邏輯卷的資訊損壞。經過仔細檢測,發現儲存癱瘓確實導致了LVM資訊損壞。嘗試人工對損壞的區域進行修復,
並修改LVM解釋程式重新解析LVM邏輯卷。
7、解析VXFS檔案系統。
搭建HP-Unix環境並將解釋出來的LV卷對映到HP-Unix,嘗試Mount檔案系統。結果Mount檔案系統出錯,嘗試使用
“fsck –F vxfs” 命令修復vxfs檔案系統,修復完成後還是不能掛載,懷疑底層vxfs檔案系統的部分後設資料被破壞,需要進
行手工修復。
8、修復VXFS檔案系統。
仔細分析解析出來的LV,並根據VXFS檔案系統的底層結構校驗此檔案系統是否完整。經過分析發現底層VXFS檔案系統有
問題,原因是儲存癱瘓的時候檔案系統正在執行IO操作,因此部分檔案系統元檔案沒有更新導致損壞。對這些損壞的元文
件進行手工修復讓VXFS檔案系統能夠正常解析。再次將修復好的LV卷掛載到HP-Unix小機上,嘗試Mount檔案系統沒有報
錯,成功掛載。
9、恢復所有使用者檔案。
在HP-Unix機器上mount檔案系統後將所有使用者資料均備份至指定磁碟空間。部分檔案目錄截圖如下:
10、檢測資料庫檔案是否完整。
使用Oracle資料庫檔案檢測工具“dbv”檢測每個資料庫檔案是否完整,沒有發現錯誤。使用北亞自主研發的Oracle資料
庫檢測工具檢測發現有部分資料庫檔案和日誌檔案校驗不一致,資料庫工程師對此類檔案進行修復並再次校驗,直到所有
檔案校驗完全透過。
11、啟動Oracle資料庫。
由於我們資料恢復中心提供的HP-Unix環境沒有此版本的Oracle資料庫,和使用者協調將原始環境帶至北亞資料恢復中心,
然後將恢復出來的Oracle資料庫附加到原始生產環境的HP-Unix伺服器中並嘗試啟動Oracle資料庫,啟動成功。部分截
圖如下:
12、資料驗證。
由使用者方配合啟動Oracle資料庫,啟動OA服務端,在本地電腦端安裝OA客戶端。透過OA客戶端對最新的資料記錄以及
歷史資料記錄進行驗證,並且安排不同部門人員進行遠端驗證。最終資料驗證無誤,資料完整,資料恢復成功。
資料恢復結論:
由於故障發生後儲存現場環境良好,沒有做相關危險的操作,對後期的資料恢復有很大的幫助。整個資料恢復過程中雖
然遇到好多技術瓶頸,但也都一一解決。最終在預期的時間內完成整個資料恢復,恢復的資料使用者方也相當滿意,Oracle
資料庫服務,OA服務端等所有服務能夠正常啟動。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31380569/viewspace-2909807/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 【伺服器資料恢復】磁碟壞道故障導致RAID5崩潰的資料恢復案例伺服器資料恢復AI
- 【伺服器資料恢復】REISERFS檔案系統RAID5崩潰的資料恢復案例伺服器資料恢復AI
- 【伺服器資料恢復】磁碟物理故障導致RAID5崩潰的資料恢復案例伺服器資料恢復AI
- 【伺服器資料恢復】伺服器reiserfs檔案系統損壞的資料恢復案例伺服器資料恢復
- 【伺服器資料恢復】raid5故障導致上層應用崩潰的資料恢復案例伺服器資料恢復AI應用崩潰
- 【伺服器資料恢復】RAID5崩潰後強制上線導致檔案丟失的資料恢復案例伺服器資料恢復AI
- 伺服器資料恢復—VMware下誤重灌系統導致伺服器崩潰的資料恢復案例伺服器資料恢復
- 【伺服器資料恢復】raid5硬碟離線導致EVA儲存崩潰資料恢復案例伺服器資料恢復AI硬碟
- 【伺服器資料恢復】RAID5崩潰後強制上線導致故障的資料恢復案例伺服器資料恢復AI
- 【伺服器資料恢復】RAID5崩潰導致上層OA不可用的資料恢復案例伺服器資料恢復AI
- 【伺服器資料恢復】硬碟壞道和不穩定扇區導致伺服器崩潰的資料恢復案例伺服器資料恢復硬碟
- 伺服器資料恢復-伺服器磁碟被踢導致陣列崩潰的RAID5資料恢復案例伺服器資料恢復陣列AI
- 【伺服器資料恢復】伺服器進水導致伺服器崩潰的資料恢復案例伺服器資料恢復
- 【伺服器資料恢復】惠普伺服器raid5崩潰的資料恢復案例伺服器資料恢復AI
- 【伺服器資料恢復】RAID5崩潰後強制上線導致資料丟失的資料恢復案例伺服器資料恢復AI
- 【北亞伺服器資料恢復】伺服器reiserfs檔案系統損壞的資料恢復案例伺服器資料恢復
- 【伺服器資料恢復】EMC儲存raid5崩潰的資料恢復案例伺服器資料恢復AI
- 【伺服器資料恢復】意外斷電導致linux伺服器崩潰的資料恢復案例伺服器資料恢復Linux
- 【伺服器資料恢復】HP MSA儲存raid5下vxfs檔案系統資料恢復伺服器資料恢復AI
- 【資料庫資料恢復】MongoDB資料庫檔案損壞的資料恢復案例資料庫資料恢復MongoDB
- 【伺服器資料恢復】同友儲存raid5崩潰的資料恢復案例伺服器資料恢復AI
- 磁碟損壞導致資料檔案丟失的恢復
- 【北亞資料恢復案例】raid0硬碟故障導致伺服器崩潰的資料恢復資料恢復AI硬碟伺服器
- 【伺服器資料恢復】raid6崩潰導致分割槽丟失的資料恢復案例伺服器資料恢復AI
- 【伺服器資料恢復】離線硬碟強制上線導致RAID5崩潰的資料恢復伺服器資料恢復硬碟AI
- 【伺服器資料恢復】reiserfs檔案系統下RAID5資料恢復案例伺服器資料恢復AI
- 【儲存資料恢復】IBM儲存檔案NTFS系統損壞的資料恢復案例資料恢復IBM
- 伺服器資料恢復-伺服器崩潰導致銀行業務模組不可用的資料恢復案例伺服器資料恢復行業
- 【伺服器資料恢復】硬碟離線但是熱備盤未啟用導致RAID5崩潰的資料恢復案例伺服器資料恢復硬碟AI
- 【北亞伺服器資料恢復】raid5崩潰導致同友儲存無法啟動的資料恢復案例伺服器資料恢復AI
- 【北亞資料恢復】伺服器raid陣列癱瘓導致ZFS檔案系統元檔案損壞的資料恢復資料恢復伺服器AI陣列
- 儲存崩潰資料恢復過程;資料恢復案例資料恢復
- 伺服器資料恢復—IBM儲存raid5陣列崩潰後的OCFS2檔案系統資料恢復案例伺服器資料恢復IBMAI陣列
- 伺服器資料恢復—重灌系統導致XFS檔案系統分割槽丟失的資料恢復案例伺服器資料恢復
- 【伺服器資料恢復】Lustre分散式檔案系統RAID5資料恢復案例伺服器資料恢復分散式AI
- 伺服器崩潰硬碟壞道資料恢復伺服器硬碟資料恢復
- 【伺服器資料恢復】VMFS檔案系統RAID5硬碟故障的資料恢復案例伺服器資料恢復AI硬碟
- 【伺服器資料恢復】斷電導致ProLiant伺服器RAID模組損壞的資料恢復案例伺服器資料恢復AI