raid5陣列兩塊硬碟離線資料恢復過程

北亞資料恢復發表於2018-04-08
伺服器故障描述:
山西某公司一臺伺服器的 FC AX-4儲存RAID5磁碟陣列,陣列中共有12塊硬碟組成raid5磁碟陣列其中有兩塊硬碟為熱備盤,陣列中硬碟單盤容量為1TB,伺服器中有兩塊硬碟離線,一塊熱備盤未啟用。客戶將伺服器中所有磁碟帶到資料恢復公司。
通常情況下造成伺服器硬碟離線的原因為磁碟物理故障或者硬碟壞道。但是由於EMC控制器有著十分嚴格的磁碟檢查策略,容易將效能不穩定的硬碟判定為硬體故障提出raid組,所以導致伺服器崩潰的原因也有可能是磁碟讀寫不穩定。

伺服器資料恢復解決過程:
第一步:檢測硬碟和伺服器資料備份;對伺服器中所有磁碟進行物理故障檢測,硬碟沒有物理故障,然後使用壞道檢測工具進行硬碟壞道排查也一切正常。使用專業映象工具將raid中所有磁碟做全盤映象。如下圖:
raid5兩塊硬碟離線資料恢復過程

第二步:分析RAID組結構;Raid資料恢復的常規步驟先要對伺服器raid資訊進行分析,然後重構raid組。在本案例中分析發現作為熱備盤的6號盤和9號盤全部無資料,6號盤已經成功啟用並替換了磁碟陣列中的5號硬碟,但資料並未同步。繼續對該伺服器raid中的其他硬碟進行條帶大小、資料的分佈規律、磁碟順序等必要資訊進行分析。分析發現7號硬碟在同一條帶上的資料與該raid中其他硬碟不同,初步確認該盤為掉線較早的硬碟,使用資料恢復公司自用的raid校驗程式對此條帶進行校驗發現最好的資料就是除去7號盤以後的資料,所以7號盤為先掉線盤無疑。將分析出來的上述資訊透過北亞自主研發的raid虛擬程式組建出原raid磁碟陣列。

第三步:對伺服器磁碟陣列中的LUN資訊進行分析;該伺服器底層只分配了一個LUN,所以工作量相對小很多,只需對一個lun的資訊進行分析,分析後使用raid恢復程式記性解釋map資料並匯出。然後使用自用軟體進行zfs檔案系統解釋,某些檔案系統檔案在解析時報錯。工程師只好手動對程式做debug除錯後發現報錯原因為伺服器突然癱瘓導致某些元檔案損壞,現有程式無法正常解釋。因此需要對這些損壞的檔案系統元檔案做修復,才能正常解析ZFS檔案系統。分析損壞的元檔案發現,因當初ZFS檔案正在進行IO操作的同時儲存癱瘓,導致部分檔案系統元檔案沒有更新以及損壞。人工對這些損壞的元檔案進行手工修復,保證ZFS檔案系統能夠正常解析。

第四步:匯出所有成功恢復資料;利用程式對修復好的ZFS檔案系統做解析,解析所有檔案節點及目錄結構。對所有成功恢復的資料進行驗證,資料完整。部分檔案目錄和驗證截圖如下:
raid5兩塊硬碟離線資料恢復過程raid5兩塊硬碟離線資料恢復過程raid5兩塊硬碟離線資料恢復過程



來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31380569/viewspace-2152679/,如需轉載,請註明出處,否則將追究法律責任。

相關文章