raid5陣列兩塊硬碟離線資料恢復過程
伺服器故障描述:
山西某公司一臺伺服器的 FC AX-4儲存RAID5磁碟陣列,陣列中共有12塊硬碟組成raid5磁碟陣列其中有兩塊硬碟為熱備盤,陣列中硬碟單盤容量為1TB,伺服器中有兩塊硬碟離線,一塊熱備盤未啟用。客戶將伺服器中所有磁碟帶到資料恢復公司。
通常情況下造成伺服器硬碟離線的原因為磁碟物理故障或者硬碟壞道。但是由於EMC控制器有著十分嚴格的磁碟檢查策略,容易將效能不穩定的硬碟判定為硬體故障提出raid組,所以導致伺服器崩潰的原因也有可能是磁碟讀寫不穩定。
伺服器資料恢復解決過程:
第一步:檢測硬碟和伺服器資料備份;對伺服器中所有磁碟進行物理故障檢測,硬碟沒有物理故障,然後使用壞道檢測工具進行硬碟壞道排查也一切正常。使用專業映象工具將raid中所有磁碟做全盤映象。如下圖:
第二步:分析RAID組結構;Raid資料恢復的常規步驟先要對伺服器raid資訊進行分析,然後重構raid組。在本案例中分析發現作為熱備盤的6號盤和9號盤全部無資料,6號盤已經成功啟用並替換了磁碟陣列中的5號硬碟,但資料並未同步。繼續對該伺服器raid中的其他硬碟進行條帶大小、資料的分佈規律、磁碟順序等必要資訊進行分析。分析發現7號硬碟在同一條帶上的資料與該raid中其他硬碟不同,初步確認該盤為掉線較早的硬碟,使用資料恢復公司自用的raid校驗程式對此條帶進行校驗發現最好的資料就是除去7號盤以後的資料,所以7號盤為先掉線盤無疑。將分析出來的上述資訊透過北亞自主研發的raid虛擬程式組建出原raid磁碟陣列。
第三步:對伺服器磁碟陣列中的LUN資訊進行分析;該伺服器底層只分配了一個LUN,所以工作量相對小很多,只需對一個lun的資訊進行分析,分析後使用raid恢復程式記性解釋map資料並匯出。然後使用自用軟體進行zfs檔案系統解釋,某些檔案系統檔案在解析時報錯。工程師只好手動對程式做debug除錯後發現報錯原因為伺服器突然癱瘓導致某些元檔案損壞,現有程式無法正常解釋。因此需要對這些損壞的檔案系統元檔案做修復,才能正常解析ZFS檔案系統。分析損壞的元檔案發現,因當初ZFS檔案正在進行IO操作的同時儲存癱瘓,導致部分檔案系統元檔案沒有更新以及損壞。人工對這些損壞的元檔案進行手工修復,保證ZFS檔案系統能夠正常解析。
第四步:匯出所有成功恢復資料;利用程式對修復好的ZFS檔案系統做解析,解析所有檔案節點及目錄結構。對所有成功恢復的資料進行驗證,資料完整。部分檔案目錄和驗證截圖如下:
山西某公司一臺伺服器的 FC AX-4儲存RAID5磁碟陣列,陣列中共有12塊硬碟組成raid5磁碟陣列其中有兩塊硬碟為熱備盤,陣列中硬碟單盤容量為1TB,伺服器中有兩塊硬碟離線,一塊熱備盤未啟用。客戶將伺服器中所有磁碟帶到資料恢復公司。
通常情況下造成伺服器硬碟離線的原因為磁碟物理故障或者硬碟壞道。但是由於EMC控制器有著十分嚴格的磁碟檢查策略,容易將效能不穩定的硬碟判定為硬體故障提出raid組,所以導致伺服器崩潰的原因也有可能是磁碟讀寫不穩定。
伺服器資料恢復解決過程:
第一步:檢測硬碟和伺服器資料備份;對伺服器中所有磁碟進行物理故障檢測,硬碟沒有物理故障,然後使用壞道檢測工具進行硬碟壞道排查也一切正常。使用專業映象工具將raid中所有磁碟做全盤映象。如下圖:
第二步:分析RAID組結構;Raid資料恢復的常規步驟先要對伺服器raid資訊進行分析,然後重構raid組。在本案例中分析發現作為熱備盤的6號盤和9號盤全部無資料,6號盤已經成功啟用並替換了磁碟陣列中的5號硬碟,但資料並未同步。繼續對該伺服器raid中的其他硬碟進行條帶大小、資料的分佈規律、磁碟順序等必要資訊進行分析。分析發現7號硬碟在同一條帶上的資料與該raid中其他硬碟不同,初步確認該盤為掉線較早的硬碟,使用資料恢復公司自用的raid校驗程式對此條帶進行校驗發現最好的資料就是除去7號盤以後的資料,所以7號盤為先掉線盤無疑。將分析出來的上述資訊透過北亞自主研發的raid虛擬程式組建出原raid磁碟陣列。
第三步:對伺服器磁碟陣列中的LUN資訊進行分析;該伺服器底層只分配了一個LUN,所以工作量相對小很多,只需對一個lun的資訊進行分析,分析後使用raid恢復程式記性解釋map資料並匯出。然後使用自用軟體進行zfs檔案系統解釋,某些檔案系統檔案在解析時報錯。工程師只好手動對程式做debug除錯後發現報錯原因為伺服器突然癱瘓導致某些元檔案損壞,現有程式無法正常解釋。因此需要對這些損壞的檔案系統元檔案做修復,才能正常解析ZFS檔案系統。分析損壞的元檔案發現,因當初ZFS檔案正在進行IO操作的同時儲存癱瘓,導致部分檔案系統元檔案沒有更新以及損壞。人工對這些損壞的元檔案進行手工修復,保證ZFS檔案系統能夠正常解析。
第四步:匯出所有成功恢復資料;利用程式對修復好的ZFS檔案系統做解析,解析所有檔案節點及目錄結構。對所有成功恢復的資料進行驗證,資料完整。部分檔案目錄和驗證截圖如下:
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31380569/viewspace-2152679/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- raid5磁碟陣列2塊硬碟離線資料恢復過程AI陣列硬碟資料恢復
- 別太相信陣列的安全性:兩塊硬碟離線資料恢復過程陣列硬碟資料恢復
- 儲存有兩塊硬碟離線恢復資料的過程硬碟
- IBM伺服器raid5兩塊硬碟離線資料恢復過程IBM伺服器AI硬碟資料恢復
- raid5陣列兩塊硬碟出現物理故障的資料恢復過程AI陣列硬碟資料恢復
- 【伺服器資料恢復】Raid5陣列兩塊硬碟亮黃燈掉線的資料恢復案例伺服器資料恢復AI陣列硬碟
- 【伺服器資料恢復】Dell伺服器raid5磁碟陣列多塊硬碟離線的資料恢復案例伺服器資料恢復AI陣列硬碟
- 伺服器資料恢復,raid5兩塊硬碟掉線資料恢復案例伺服器資料恢復AI硬碟
- IBM ds4700 兩塊硬碟掉線資料恢復過程IBM硬碟資料恢復
- 資料恢復經典案例分析-raid兩塊硬碟離線恢復資料恢復AI硬碟
- raid5硬碟故障資料恢復過程AI硬碟資料恢復
- 【伺服器資料恢復】伺服器raid5陣列2塊硬碟掉線的資料恢復案例伺服器資料恢復AI陣列硬碟
- raid5兩塊硬碟離線lvm下vxfs檔案系統恢復資料方案AI硬碟LVM
- raid5陣列2塊硬碟掉線應該資料恢復還是強制上線AI陣列硬碟資料恢復
- RAID磁碟陣列掉線3塊的資料恢復過程AI陣列資料恢復
- 伺服器硬碟意外離線的資料恢復過程伺服器硬碟資料恢復
- 【伺服器資料恢復】raid5硬碟離線的資料恢復案例伺服器資料恢復AI硬碟
- 【伺服器raid資料恢復】RAID5兩塊盤離線的資料恢復案例伺服器AI資料恢復
- 【伺服器資料恢復】昆騰儲存raid5多塊硬碟離線的資料恢復案例伺服器資料恢復AI硬碟
- 【伺服器資料恢復】HP StorageWorks系列儲存RAID5兩塊盤離線的資料恢復伺服器資料恢復AI
- 【伺服器資料恢復】Raid5熱備盤上線同步時另一塊硬碟離線的資料恢復案例伺服器資料恢復AI硬碟
- raid5硬碟掉線,重建raid並同步資料後恢復資料過程AI硬碟
- 【伺服器資料恢復】伺服器Raid5陣列mdisk磁碟離線的資料恢復案例伺服器資料恢復AI陣列
- 【伺服器資料恢復】raid5磁碟陣列磁碟出現故障離線的資料恢復案例伺服器資料恢復AI陣列
- 伺服器資料恢復—EVA儲存raid5硬碟離線的資料恢復案例伺服器資料恢復AI硬碟
- 儲存raid5陣列兩塊盤掉線的解決過程AI陣列
- 磁碟陣列中raid5壞了一個硬碟資料恢復陣列AI硬碟資料恢復
- 【伺服器資料恢復】raid5強制上線離線硬碟失敗的資料恢復案例伺服器資料恢復AI硬碟
- 【伺服器資料恢復】raid5離線硬碟重新上線同步資料失敗的資料恢復案例伺服器資料恢復AI硬碟
- 【北亞伺服器資料恢復】Raid5熱備盤同步資料過程中硬碟離線導致同步失敗的資料恢復伺服器資料恢復AI硬碟
- 伺服器raid5先後兩塊盤掉線的恢復過程伺服器AI
- 【伺服器資料恢復】離線硬碟強制上線導致RAID5崩潰的資料恢復伺服器資料恢復硬碟AI
- 【北亞資料恢復】IBM FlashSystem儲存raid5多硬碟離線的資料恢復案例資料恢復IBMAI硬碟
- 伺服器RAID資料恢復,磁碟陣列資料恢復過程伺服器AI資料恢復陣列
- 【伺服器資料恢復】HP EVA儲存多塊硬碟離線的資料恢復案例伺服器資料恢復硬碟
- 【北亞資料恢復】DELL POWEREDGE 2850伺服器RAID5兩塊硬碟掉線後系統癱瘓的資料恢復資料恢復伺服器AI硬碟
- 【伺服器資料恢復】raid5硬碟離線導致EVA儲存崩潰資料恢復案例伺服器資料恢復AI硬碟
- 伺服器資料恢復-raid5多塊磁碟離線,熱備盤沒有啟用導致陣列崩潰的資料恢復案例伺服器資料恢復AI陣列