【伺服器資料恢復】Lustre分散式檔案系統RAID5資料恢復案例

北亞資料恢復發表於2022-11-23

伺服器資料恢復環境:
5臺伺服器節點,每臺伺服器節點配置一組RAID5,每組6塊硬碟,其中1塊設定為熱備盤。
系統環境為Lustre分散式檔案系統,5臺伺服器共同儲存全部的資料檔案。

伺服器故障&檢測:
機房漏水導致伺服器進水,伺服器中的部分硬碟損壞。每組伺服器有2塊及以上的盤掉線。由於短時間同時掉線2塊及以上硬碟導致RAID5崩潰,伺服器,資料無法正常讀取。

伺服器資料恢復過程:
1、為避免對原盤資料造成二次破壞,使用工具對故障伺服器中所有正常硬碟進行映象備份。後續操作全部基於映象完成。
2、透過更換磁頭、修復韌體等方式修復無法讀取的故障硬碟,並映象故障硬碟中的資料。
3、北亞資料恢復工程師透過分析磁碟中資料規律獲取到RAID校驗形式、條帶大小、盤序等RAID相關資訊,並根據這些RAID資訊虛擬重組出所有RAID整列。
4、解析Lustre分散式檔案系統。
Lustre分散式系統由後設資料卷(MDS)和資料卷(OST)組成,重組RAID後就可以看到MDS分割槽和OST分割槽。Lustre檔案系統中所有檔案的檔名、檔案路徑等屬性資訊存放在MDS分割槽,而檔案對應的資料內容全部存放在OST分割槽中。
MDS分割槽是一個EXT3檔案系統,除了節點型別為檔案的解析方式有所變化外,其餘所有解析方式和Ext3一樣。
從MDS中獲取到整個Lustre中所有檔案的目錄結構,檔名稱,檔案編號,所屬OST號等屬性資訊。
根據從MDS中獲取到的目錄結構,檔名稱,檔案編號,所屬OST號等屬性資訊,北亞資料恢復工程師整理重構出檔案的原始路徑,並定位到索引的OST卷及相關資料區域,獲取相關資料檔案。
5、透過萬兆網路將恢復出的所有資料複製到使用者準備好的裝置環境中。

伺服器資料恢復結果:
使用者親自檢查恢復出來的資料,確認資料檔案基本全部恢復出來,隨機抽取部分檔案進行校驗,檔案正確無誤,目錄結構完好。本次資料恢復完成。

相關文章