故障描述
HP儲存,儲存空間由8塊450GB SAS的硬碟組成,其中7塊硬碟組成一個RAID5的陣列,剩餘1塊做成熱備盤使用。
RAID5陣列中出現2塊硬碟損壞,而此時只有一塊熱備盤成功啟用,因此導致RAID5陣列癱瘓,上層LUN無法正常使用。
raid資料恢復故障分析
沒有檢測到磁碟有物理故障與壞道,可能由於某些磁碟讀寫不穩定導致故障發生。一旦某些磁碟效能不穩定,控制器就認為是壞盤,就將認為是壞盤的磁碟踢出RAID組。而一旦RAID組中掉線的盤到達到RAID級別允許掉盤的極限,那麼這個RAID組將變的不可用,上層基於RAID組的LUN也將變的不可用。
HP 儲存LUN都是基於RAID組,先分析底層RAID組的資訊,後根據分析的資訊重構原始的RAID組。分析每一塊資料盤。分析Oracle資料庫頁在每個磁碟中分佈的情況。
分析RAID組中的LUN資訊
由於LUN是基於RAID組的,因此需要根據上述分析的資訊將RAID組最新的狀態虛擬出來。
1、解析LVM邏輯卷
分析生成出來的所有LUN,發現所有LUN中均包含HP-Unix的LVM邏輯卷資訊。嘗試解析每個LUN中的LVM資訊,發現其中一共有三套LVM,其中45G的LVM中劃分了一個LV,裡面存放OA伺服器端的資料,190G的LVM中劃分了一個LV,裡面存放臨時備份資料。
2、修復LVM邏輯卷
仔細分析程式報錯的原因,檢測LVM資訊是否會因儲存癱瘓導致LMV邏輯卷的資訊損壞,重新解析LVM邏輯卷。
檢測Oracle資料庫檔案並啟動資料庫
1、恢復所有檔案
在HP機器上mount檔案系統後,將資料均備份至指定磁碟空間。2、檢測資料庫檔案是否完整
3、啟動Oracle資料庫
資料驗證
啟動Oracle資料庫,啟動OA服務端,透過OA對最新的資料記錄以及歷史資料記錄進行驗證,最終資料驗證無誤,資料完整恢復。