儲存意外斷電導致raid資訊丟失的解決過程

北亞資料恢復發表於2019-06-13

【儲存raid陣列故障的起因】

事情的起因是這樣的,這次經歷的資料恢復裝置為DL380系列儲存,儲存中儲存的是客戶公司內部檔案和機密資訊。儲存上共有6塊硬碟組成raid5陣列,在正常使用過程中儲存突然崩潰,強制重啟後無法找到儲存裝置,再重啟還是這樣。客戶於是聯絡我們進行儲存層面的資料恢復。

【資料恢復故障分析】

經過和硬體部門同事的一同檢測和分析,大致可以推斷客戶這臺儲存的故障應該是raid模組損壞,一般出現這種raid資訊丟失或者raid模組硬體損壞的原因多是由於多次的斷電造成的。說回到本次資料恢復過程中來,經過與客戶的溝通得知這臺儲存確實經歷過不正常的斷電關機,但當時並未出現異常因此並未引起重視,直到儲存崩潰後也沒有意識到這次故障與以前的意外斷電有聯絡。現在客戶儲存上的這6塊硬碟已經都沒有辦法通過正常途徑來進行提取了,想要提取資料只能進行資料恢復。

【資料恢復過程記錄】

  1. 既然儲存已經崩潰,我們首先要確定的就是硬碟有沒有物理損壞。Raid模組損壞到目前為止也只是推測,要想確定故障原因還是要按照資料恢復流程進行檢測。於是硬體部門的同時協助我們對客戶的6塊硬碟依次進行了物理檢測,所有硬碟正常,沒有物理損壞。

  2. 硬碟沒有物理損壞,硬體部門同事的工作也就結束了。剩下的工作就由我們進行資料恢復操作了,首先是在我們內部準備了一臺帶有冗餘功能的儲存作為資料恢復平臺,把這6塊盤全部都映象到資料恢復平臺上。

  3. 接下來就是繁重的資料恢復工作了,首先分析了這個陣列的raid結構以及所有硬碟在陣列中的盤序、校驗方式和資料塊大小,分析過程持續了兩天終於宣告完成。接下來就利用這些分析得到的資料重新構建了一組raid5陣列。

  4. 資料恢復工作進行到這一步就可以進行邏輯校驗了,邏輯校驗沒問題後才可以讓客戶進行資料驗證。雖然校驗成功後依然有客戶驗證資料恢復不通過的可能性,但是畢竟是少數,可以說是成敗在此一舉。

  5. 非常幸運,驗證通過。客戶對資料恢復結果再進行驗證也完全達到了儲存發生故障前的狀態,本次資料恢復工作圓滿結束。由於客戶的資料涉密級別高且對時間要求比較緊急,這次的儲存資料恢復工作從檢測到客戶驗證通過整整用了3天時間,在資料恢復的過程中也是一直保持在緊張的狀態,好在資料恢復成功可以好好的放鬆一下緊張的心情了

【儲存資料安全小貼士】

  1. 儲存在工作時儘量保障電源穩定,關機時要採取正常的關機方式而不是直接斷電(這裡不要笑,確實有一部分人喜歡直接斷電而不是正常關機)。

  2. 服役年限比較久了的一些老裝置要勤檢查,尤其是受過傷但依然在執行的裝置更要分外上心,隨時注意工作狀態隨時維護。例如這次恢復的儲存,意外斷電後並沒有馬上出現故障而是平安執行了一段時間後才突然崩潰,一下讓人措手不及了。

  3. 最終要的一點就是對資料做好備份,抄襲一句話“資料千萬條,備份第一條”有了備份檔案,就算是伺服器崩潰了也可以做到有備無患,從容的進行修復而不會影響正常業務。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31380569/viewspace-2647558/,如需轉載,請註明出處,否則將追究法律責任。

相關文章