【伺服器資料恢復】伺服器光纖共享儲存互斥失敗的資料恢復案例

北亞資料恢復發表於2022-08-24

伺服器資料恢復環境:


兩臺SPARC SOLARIS系統透過光纖交換機共享同一儲存作為CLUSTER使用,正常情況下A伺服器工作,當A伺服器發生故障

機後即可將其關機然後開啟B伺服器接管。



伺服器故障:


由於伺服器配置不當導致兩臺伺服器沒有做好對儲存的互斥。


管理員進行巡查時開啟B伺服器,檢視到B伺服器連線了一組未知的大容量磁碟。由於B伺服器並未啟用處於閒置的狀態,所以

管理員本能的認為B伺服器連線的那一組大容量磁碟也處於閒置狀態,於是將整個磁碟的某個分割槽做了newfs。沒有想到這個

磁碟就是那個共享儲存,沒多久A伺服器報警並當機。


管理員重啟了A伺服器,發現所有的檔案系統均無法mount。管理員執行了fsck,除了在B機做過newfs的檔案系統其他分割槽

的資料都修復成功,在B機做過newfs的檔案系統的根目錄下只有一個lost+found資料夾,裡面有大量數字標號的檔案。故障

檔案系統儲存了兩組ORACLE例項,原結構為UFS,約有200~400個資料檔案需要恢復。


伺服器故障分析:


光纖裝置的共享衝突案例很多。本案例中A伺服器與B伺服器同時對UFS這個單機檔案系統進行訪問,兩臺伺服器都以想當然

的獨享方式對儲存進行管理。A伺服器正常管理的檔案系統底層上其實已經被B伺服器做了檔案系統的初始化,A伺服器從緩

衝區寫入檔案系統的資料也會破壞B伺服器初始化的結果。


B伺服器newfs實際上會直接作用於原先的檔案系統之上,但本案例與單純的newfs有些不同:在A伺服器當機之前會有一小

部分資料(包括後設資料)回寫到檔案系統。如果newfs的結構與之前的相同,資料區是不會被破壞的,如果有一小部分後設資料存

在,還是有可能恢復部分資料的。


UFS是傳統的UNIX檔案系統,以塊組切割,每塊組分配若干固定的inode區。如果檔案系統newfs的結構與之前的相同,檔案

系統最重要的inode區便會全部初始化,之前的無法保留。由於inode管理著所有檔案的重要屬性,所以單純從檔案系統角度

恢復資料的難度很大。好在oracle資料檔案的結構性很強,同時UFS檔案系統有一定的儲存規律,可以透過對oracle資料檔案

的結構重組,直接將資料檔案、控制檔案、日誌等恢復出來。同時oracle資料檔案本身有表名稱描述,可以反向推斷原來的磁

盤檔名。



伺服器資料恢復過程:


1、對故障的檔案系統做映象備份。

2、北亞伺服器資料恢復工程師針對整個映象檔案做完全的oracle資料結構分析、重組。

3、參考ufs檔案系統結構特徵,北亞工程師對部分結構太亂,無法重組的檔案進行輔助分析。

4、利用恢復出來的資料檔案、控制檔案在oracle平臺恢復資料庫。最終恢復出所有資料庫資料。



伺服器資料恢復Tips:


fsck是很致命的操作,在執行fsck操作之前最好做好備份。光纖儲存的不互斥是很多資料災難發生的原因,應謹慎部署與實施。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31380569/viewspace-2911750/,如需轉載,請註明出處,否則將追究法律責任。

相關文章