EMC儲存Raid故障資料分析報告
一、 故障描述
使用者的 EMC FC AX-4儲存 出現 崩潰 現象 , 整個儲存 空間 由 12 塊 1TB STAT 的硬碟組成的,其中 10塊硬碟組成一個RAID5的陣列,其餘兩塊做成熱 備盤使用。 由於 RAID5陣列中出現2塊硬碟損壞,而此時只有一塊熱備盤成功啟用,因此導致RAID5陣列癱瘓,上層LUN無法正常使用。
二、檢測磁碟
由於儲存是因為某些磁碟掉線,從而導致整個儲存不可用。因此接收到磁碟以後先對所有磁碟做物理檢測,檢測完後發現沒有物理故障。接著使用壞道檢測工具檢測磁碟壞道,發現也沒有壞道。
三、 備份資料
考慮到資料的安全性以及可還原性,在做資料恢復之前需要對所有源資料做備份,以防萬一其他原因導致資料無法再次恢復。使用 winhex 將所有磁碟都映象成檔案,由於源磁碟的扇區大小為 520 位元組,因此還需要使用特殊工具將所有備份的資料再做 520 to 512 位元組的轉換。
四、故障分析 及恢復過程
1、分析故障原因
由於前兩個步驟並沒有檢測到磁碟有物理故障或者是壞道,由此推斷可能是由於某些磁碟讀寫不穩定導致故障發生。因為 EMC 控制器檢查磁碟的策略很嚴格,一旦某些磁碟效能不穩定, EMC 控制器就認為是壞盤,就將認為是壞盤的磁碟踢出 R AID 組。而一旦 R AID 組中掉線的盤到達到 RAID 級別允許掉盤的極限,那麼這個 RAID 組將變的不可用,上層基於 RAID 組的 LUN 也將變的不可用。目前初步瞭解的情況為基於 RAID 組的 LUN 只有一個,分配給 SUN 小機使用,上層檔案系統為 ZFS 。
2、分析RAID組結構
EMC 儲存的 LUN 都是基於 RAID 組的,因此需要先分析底層 RAID 組的資訊,然後根據分析的資訊重構原始的 RAID 組。分析每一塊資料盤, 發現 8 號盤和 11 號盤完全沒有資料,從管理介面上可以看到 8 號盤和 11 號盤都屬於 H ot Spare ,但 8 號盤的 Hot Spare 替換了 5 號盤的壞盤。因此可以判斷雖然 8 號盤的 Hot Spare 雖然成功啟用,但由於 RAID 級別為 RAID5 ,此時 RAID 組中還缺失一塊硬碟,所以導致資料 沒有同步到 8 號硬碟中。繼續分析其他 10 塊硬碟,分析資料在硬碟中分佈的規律, RAID 條帶的大小,以及每塊磁碟的順序。
3、分析RAID組掉線盤
根據上述分析的 RAID 資訊,嘗試通過北亞自主開發的 RAID 虛擬程式將原始的 RAID 組虛擬出來 。但由於整個 RAID 組中一共掉線兩塊盤,因此需要分析這兩塊硬碟掉線的順序。仔細分析每一塊硬碟中的資料,發現有一塊硬碟在同一個條帶上的資料和其他硬碟明顯不一樣,因此初步判斷此硬碟可能是最先掉線的,通過北亞自主開發的 RAID 校驗程式對這個條帶做校驗,發現除掉剛才分析的那塊硬碟得出的資料是最好的,因此可以明確最先掉線的硬碟了。
4、分析RAID組中的LUN資訊
由於 LUN 是基於 RAID 組的,因此需要根據上述分析的資訊將 RAID 組重組出來 。然後分析 LUN 在 RAID 組中的分配資訊,以及 LUN 分配的資料塊 MAP 。由於底層只有一個 LUN ,因此只需要分析一份 LUN 資訊就 OK 了。然後根據這些資訊 使用北亞 raid 恢復 ( datahf.net ) 程式,解釋 LUN 的資料 MAP 並匯出 LUN 的所有資料。
五、 解釋 ZFS檔案系統並修復
1、 解釋 ZFS檔案系統
利用北亞資料恢復 ( datahf.net ) 自主開發的 Z FS 檔案系統解釋程式對生成的 LUN 做檔案系統解釋,發現程式在解釋某些檔案系統元檔案的時候報錯。迅速安排開發工程師對程式做 debug 除錯,分析程式報錯原因。接著安排檔案系統工程師分析 ZFS 檔案系統是否因為版本原因,導致程式不支援。經過長達 7 小時的分析與除錯,發現 ZFS 檔案系統因儲存突然癱瘓導致其中某些元檔案損壞,從而導致解釋 ZFS 檔案系統的程式無法正常解釋。
2、 修復 ZFS檔案系統
上述分析明確了 ZFS檔案系統因儲存癱瘓導致部分檔案系統元檔案損壞,因此需要對這些損壞的檔案系統元檔案做修復,才能正常解析ZFS檔案系統。分析損壞的元檔案發現,因當初ZFS檔案正在進行IO操作的同時儲存癱瘓,導致部分檔案系統元檔案沒有更新以及損壞。人工對這些損壞的元檔案進行手工修復,保證ZFS檔案系統能夠正常解析。
六、 匯出所有資料
利用程式對修復好的 ZFS 檔案系統做解析,解析所有檔案節點及目錄結構。部分檔案目錄截圖如下:
七、驗證最新資料
由於資料都是文字型別及 DCM 圖片,需要搭建太多的環境。由使用者方工程師指點某些資料進行驗證,驗證結果都沒有問題,資料均完整。部分檔案驗證如下 :
八、資料恢復結論
由於故障發生後儲存現場環境良好,沒用做相關危險的操作,對後期的資料恢復有很大的幫助。整個資料恢復過程中雖然遇到好多技術瓶頸,但也都一一解決。最終在預期的時間內完成資料恢復,經使用者驗收資料無誤,至此資料恢復工作結束。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31380569/viewspace-2645863/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- EMC儲存崩潰raid離線恢復資料方法AI
- 【儲存資料恢復】EMC某型號儲存raid5崩潰的資料恢復案例資料恢復AI
- 伺服器資料恢復—EMC儲存zfs檔案系統下raid5故障的資料恢復案例伺服器資料恢復AI
- 【儲存】EMC
- 【伺服器資料恢復】EMC儲存raid5崩潰的資料恢復案例伺服器資料恢復AI
- EMC 儲存資料恢復案例詳解【資料恢復方案】資料恢復
- 【raid資料恢復】光纖儲存raid陣列資料恢復案例AI資料恢復陣列
- 【伺服器raid資料恢復】光纖儲存raid資料恢復案例伺服器AI資料恢復
- RAID 儲存策略AI
- 【儲存資料恢復】EqualLogic PS系列儲存磁碟故障的資料恢復案例資料恢復
- EMC-AX4儲存配置
- raid5儲存池已損毀硬碟資料AI硬碟
- EMC UNITY 400儲存卷刪除資料恢復操作過程Unity資料恢復
- 【儲存資料恢復】儲存上的raid5陣列崩潰的資料恢復案例資料恢復AI陣列
- 這種方式解決EMC儲存崩潰RAID離線問題,簡單又高效AI
- 【伺服器資料恢復】IBM儲存raid5故障導致卷無法掛載的資料恢復伺服器資料恢復IBMAI
- 【伺服器資料恢復】raid5故障導致儲存的卷無法掛載的資料恢復伺服器資料恢復AI
- 某品牌儲存raid崩潰解決方案/raid5資料恢復案例AI資料恢復
- Druid:實時分析資料儲存UI
- 伺服器資料恢復—EMC儲存資料卷被誤刪除如何恢復資料?伺服器資料恢復
- 【伺服器儲存裝置資料恢復】EMC儲存裝置POOL上的資料卷被刪除的資料恢復案例伺服器資料恢復
- 【伺服器資料恢復】EMC Unity儲存誤刪除的資料恢復案例伺服器資料恢復Unity
- 【伺服器資料恢復】EMC Isilon儲存誤刪除的資料恢復案例伺服器資料恢復
- 【伺服器儲存資料恢復】華為OceanStor某型號儲存raid5資料恢復案例伺服器資料恢復AI
- 從 RAID 到 Hadoop Hdfs 『大資料儲存的進化史』AIHadoop大資料
- 【北亞伺服器資料恢復】IBM DS系列儲存硬碟故障導致RAID5崩潰的資料恢復伺服器資料恢復IBM硬碟AI
- 【北亞資料恢復】EMC儲存伺服器riad5硬碟故障掉線導致伺服器崩潰的資料恢復資料恢復伺服器硬碟
- 北亞資料恢復工程師分析儲存使用的的RAID6演算法資料恢復工程師AI演算法
- EMC儲存重灌系統丟失分割槽的資料恢復過程資料恢復
- 報表資料分庫儲存
- 【北亞伺服器資料恢復】EMC儲存Raid5中2塊硬碟損壞,熱備盤未啟用的資料恢復案例伺服器資料恢復AI硬碟
- 【儲存資料恢復】WAFL檔案系統下raid資料恢復案例資料恢復AI
- 【Redis】redis各型別資料儲存分析Redis型別
- 資料儲存--檔案儲存
- 【伺服器資料恢復】Storwize系列儲存raid5資料恢復案例伺服器資料恢復AI
- 【故障公告】1個儲存過程拖垮整個資料庫儲存過程資料庫
- 資料庫連線異常故障報告資料庫
- raid5硬碟故障資料恢復過程AI硬碟資料恢復