你做了什麼自己沒數嗎?現在這個樣子我們也沒辦法—陣列故障操作不當導致無法恢復資料

北亞資料恢復發表於2018-03-08
[伺服器raid5磁碟陣列情況簡介]
西藏某政府機構使用的一臺MS SQL SERVER伺服器,是由4塊硬碟組成的raid5磁碟陣列,劃分一個邏輯卷,單盤為73GSCSI硬碟,組建於一臺IBM X225型號伺服器上。作業系統為WINDOWS 2003。

[伺服器磁碟陣列故障經過]
A、伺服器在正常使用中raid忽然癱瘓,檢查伺服器發現已經有有3塊硬碟為離線狀態。
B、管理員採用了隨便選擇2塊硬碟進行強制上線操作,但是作業系統無法啟動。
C、使用WINPE光碟啟動作業系統後,可以看到資料。
D、把備份好的資料庫檔案使用zip檔案格式複製到行動硬碟上,在其他伺服器機器上測試後發現備份檔案無法正確解壓但檔案大小、名稱都正確。
E、聘請第三方維保公司對伺服器進行更換raid卡操作並且重建一組raid5陣列。
F、管理員在raid上重灌系統後正常工作,同時試圖修復zip檔案中的資料庫,經過一天的時間依然沒有成功。

[伺服器磁碟陣列資料恢復結論]
這個案例的結果完全不同於我以前分享的伺服器資料恢復案例,因為資料遭到了嚴重破壞,無法按照客戶的要求進行資料恢復。
 
[raid5 資料恢復失敗的原因分析和raid5資料恢復建議]
A,伺服器在使用RAID5陣列進行儲存時一定要及時對raid進行維護,保證raid正常,一旦發現有一塊硬碟離線後即使伺服器可以執行但一定要及時備份資料,並且對出現故障的磁碟陣列進行rebuild操作。等到伺服器癱瘓後才對raid磁碟陣列進行檢查已經是事後補救了,資料恢復的難度也相應增大。

B,如果由於運維工作不及時或其他原因導致raid5陣列2塊以上硬碟離線,切記不可隨意選擇硬碟上線,如果在選錯盤的情況下啟動系統將有可能導致raid狀態改變,破壞磁碟陣列中的重要資料,導致資料恢復失敗。具體應對方法可以參考張宇工程師的《RAID損壞後,我們該如何緊急應對?》這篇文章。

C,只要目錄區正常或者部分正常,就可以使用PE看到目錄,但這並不意味著資料區一定正常,其實在第二步中系統無法啟動就是因為強勢上線的操作是錯誤的,此時應該停止繼續操作。而管理員在PE裡讀到目錄,實際上已經對檔案系統進行了載入,破壞了正常檔案系統的後設資料區(只是有可能破壞的不影響要恢復的資料)。

D,ZIP檔案無法解壓的原因是RAID結構錯誤。管理員透過強制上線操作上線了2塊硬碟,此時共有3塊硬碟線上,但是這3塊硬碟中有一塊是先離線的磁碟,這就導致了最新資料與先離線盤中的舊資料混合在一起。此時目錄正確但資料區是混亂的,如果不對這3塊硬碟進行全面的資料同步的話基本上市可以完整恢復資料的。

E,如果自己無法解決raid5陣列出現的故障需要聘請維保公司進行解決時要注意合同中確定有資料恢復的專案,可以讓其代為進行資料恢復處理(但最好還是諮詢幾家專業的資料恢復公司,確定一下資料恢復方案)。如果維保公司沒有資料恢復的服務範圍,那麼最好優先或者直接選擇資料恢復公司。因為大多數情況維保公司沒有資料恢復服務無法進行資料恢復只好再找資料恢復公司,這其中的轉折不僅對資料的安全、流程規範等方面無法直接掌控,增加資料恢復難度、降低資料恢復成功率,而且導致費用增加(有時候大得可怕)。

F,導致本案例中數無法恢復的最致命操作就是重建RAID5。IBM X225使用SERVER RAID SUPPORT CD重建RAID時,預設會對所有資料進行清0。其它型號的伺服器通常也會在重建raid時重新同步校驗,打亂原有資料結構,不過完整同步的過程需要一定的時間,如果在同步沒有完成的情況下中斷同步還是可以對未同步的剩餘資料進行資料恢復。

G,管理員進行了一天的同步,73G的RAID成員盤都已經同步完成了。資料已經完全毀了。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31380569/viewspace-2151642/,如需轉載,請註明出處,否則將追究法律責任。

相關文章