【伺服器資料恢復】raid5硬碟離線導致EVA儲存崩潰資料恢復案例
伺服器故障&檢測&分析:
HP EVA儲存裝置中的RAID5磁碟有兩塊硬碟掉線,lun丟失。硬體工程師對故障伺服器進行物理故障檢測,發現掉線硬碟能
夠正常讀取,無物理故障,也沒有發現壞道。
故障伺服器掉線硬碟沒有物理故障,所以掉線極有可能是硬碟讀寫不穩定造成的。EVA控制會將讀寫不穩定的硬碟預設為壞
盤並踢出。raid5冗餘允許最大掉線硬碟的數量是2,掉線的硬碟超過了2塊就會導致伺服器崩潰。
透過分析故障伺服器內raid條目的儲存形式,發現每個硬碟的不同塊組成一個raid條目。透過分析後解析出來raid條目資訊,
發現每個LUN都有一份LUN_MAP。由於EVA將LUN_MAP分別存放在不同的磁碟中,用一個索引來指定其位置,因此在磁
盤中找出這個指定LUN_MAP位置的索引就可以找到現存LUN的資訊。
伺服器資料恢復過程:
1、將故障儲存中所有硬碟連線到北亞企安資料恢復平臺上,以只讀方式將硬碟資料映象備份,後續的資料分析和資料恢復
操作都基於映象檔案進行,避免對原始資料造成二次破壞。
2、透過故障分析確定硬碟掉線的原因是讀寫不穩定,被控制器踢出掉線。這些掉線的硬碟中有一部分資料是老舊資料,LUN
使用的是RAID5,只需要將一個LUN的RAID條目透過RAID5的校驗演算法算出校驗值,再和原有的校驗值做比較就可以判斷這
個條目中是否有掉線盤。
將一個LUN的所有LUN_MAP都校驗一遍就可以知道這個LUN中的哪些RAID條目中有掉線盤。在這些RAID條目中都存在的那
個盤就一定就是掉線盤。排除掉線盤後根據LUN_MAP即可恢復所有LUN的資料。由北亞企安資料恢復工程師編寫相對應程式
來實現這個方案,根據編寫好的程式去實現不同的功能:
a、編寫程式掃描全部LUN_MAP,結合人工分析獲取到LUN_MAP。
b、編寫檢測RAID條目的程式檢測所有LUN中掉線的磁碟,結合人工分析排除掉線的磁碟。
c、編寫LUN資料恢復程式,結合LUN_MAP恢復所有LUN資料。
恢復出所有LUN的資料後由人工核對每個LUN,驗證是否和使用者方工程師描述的一致。
3、根據使用者方工程師描述,所有LUN的資料可以分成兩部份:1、Vmware的虛擬機器;2、HP-UX上的裸裝置,裸裝置存放
Oracle的dbf資料庫。由於透過恢復出來的LUN無法看到裡面的檔案,因此需要人工核對哪些LUN是存放Vmware的資料,
哪些LUN是HP-UX上的裸裝置。核對完成後將不同的LUN掛載到不同的驗證環境中進行驗證。
4、將所有存放vmware虛擬機器資料的LUN裡面的虛擬機器檔案都生成出來,透過NFS共享的方式掛載到虛擬主機上,然後將虛
擬機一個一個新增到清單。所有虛擬機器加電開機後都能啟動系統。使用者方工程師親自對虛擬機器裡面的資料進行驗證沒有發現
問題。本次資料恢復工作完成。
伺服器資料安全Tips:
1、定期巡查伺服器&儲存裝置,發現報警及時處理。
2、操作要謹慎,避免誤操作導致裝置資料丟失。
3、如果發現EVA控制器模組不穩定,應當及時更換。
4、本案例中的EVA儲存故障是由磁碟讀寫不穩定導致的,如果EVA儲存中所有磁碟(掉線和沒有掉線的)是同一批次,這些
沒有掉線的磁碟也應該快到極限,如果有條件建議更換掉這批磁碟。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31380569/viewspace-2937329/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 伺服器資料恢復—EVA儲存raid5硬碟離線的資料恢復案例伺服器資料恢復AI硬碟
- 【伺服器資料恢復】HP EVA系列儲存硬碟離線的資料恢復案例伺服器資料恢復硬碟
- 【伺服器資料恢復】離線硬碟強制上線導致RAID5崩潰的資料恢復伺服器資料恢復硬碟AI
- 【伺服器資料恢復】HP EVA儲存多塊硬碟離線的資料恢復案例伺服器資料恢復硬碟
- 【伺服器資料恢復】硬碟離線但是熱備盤未啟用導致RAID5崩潰的資料恢復案例伺服器資料恢復硬碟AI
- 【伺服器資料恢復】EMC儲存raid5崩潰的資料恢復案例伺服器資料恢復AI
- 儲存崩潰資料恢復過程;資料恢復案例資料恢復
- 【伺服器資料恢復】同友儲存raid5崩潰的資料恢復案例伺服器資料恢復AI
- 【伺服器資料恢復】HP EVA儲存資料恢復案例伺服器資料恢復
- 【伺服器資料恢復】磁碟物理故障導致RAID5崩潰的資料恢復案例伺服器資料恢復AI
- 【北亞伺服器資料恢復】IBM DS系列儲存硬碟故障導致RAID5崩潰的資料恢復伺服器資料恢復IBM硬碟AI
- 【儲存資料恢復】EMC某型號儲存raid5崩潰的資料恢復案例資料恢復AI
- 【儲存資料恢復】儲存上的raid5陣列崩潰的資料恢復案例資料恢復AI陣列
- 【儲存資料恢復】IBM DS5300儲存由於硬碟壞道導致RAID5崩潰的資料恢復案例資料恢復IBM硬碟AI
- 【伺服器資料恢復】RAID5崩潰後強制上線導致故障的資料恢復案例伺服器資料恢復AI
- 多塊硬碟離線導致raid6崩潰的資料恢復案例硬碟AI資料恢復
- 【伺服器資料恢復】磁碟壞道故障導致RAID5崩潰的資料恢復案例伺服器資料恢復AI
- 【伺服器資料恢復】raid5硬碟離線的資料恢復案例伺服器資料恢復AI硬碟
- 【北亞伺服器資料恢復】raid5崩潰導致同友儲存無法啟動的資料恢復案例伺服器資料恢復AI
- 【伺服器資料恢復】RAID6多塊硬碟離線崩潰的資料恢復案例伺服器資料恢復AI硬碟
- 【伺服器資料恢復】Storwize儲存Mdisk中硬碟離線的資料恢復案例伺服器資料恢復硬碟
- 【伺服器資料恢復】昆騰儲存raid5多塊硬碟離線的資料恢復案例伺服器資料恢復AI硬碟
- 【伺服器資料恢復】RAID5崩潰後強制上線導致資料丟失的資料恢復案例伺服器資料恢復AI
- 伺服器磁碟離線導致RAIDZ崩潰資料恢復伺服器AI資料恢復
- 【伺服器資料恢復】raid5故障導致上層應用崩潰的資料恢復案例伺服器資料恢復AI應用崩潰
- 【伺服器資料恢復】nas儲存伺服器硬碟故障離線導致無法訪問的資料恢復案例伺服器資料恢復硬碟
- 【北亞資料恢復案例】raid0硬碟故障導致伺服器崩潰的資料恢復資料恢復AI硬碟伺服器
- 伺服器資料恢復—nas儲存硬碟出現故障離線導致無法訪問的資料恢復案例伺服器資料恢復硬碟
- 【北亞資料恢復】IBM伺服器raid5硬碟離線,熱備盤未啟用導致raid崩潰的資料恢復案例資料恢復IBM伺服器AI硬碟
- 【北亞資料恢復】EMC儲存伺服器riad5硬碟故障掉線導致伺服器崩潰的資料恢復資料恢復伺服器硬碟
- 【北亞伺服器資料恢復】RAIDZ多塊磁碟離線導致伺服器崩潰的資料恢復案例伺服器資料恢復AI
- 【伺服器資料恢復】RAID5崩潰導致上層OA不可用的資料恢復案例伺服器資料恢復AI
- EMC儲存崩潰raid離線恢復資料方法AI
- 【北亞企安資料恢復】RAIDZ多塊磁碟離線導致崩潰的資料恢復案例資料恢復AI
- 【北亞資料恢復】IBM FlashSystem儲存raid5多硬碟離線的資料恢復案例資料恢復IBMAI硬碟
- 伺服器資料恢復-伺服器磁碟被踢導致陣列崩潰的RAID5資料恢復案例伺服器資料恢復陣列AI
- 【伺服器資料恢復】RAID5崩潰後強制上線導致檔案丟失的資料恢復案例伺服器資料恢復AI
- 【伺服器資料恢復】伺服器進水導致伺服器崩潰的資料恢復案例伺服器資料恢復