伺服器硬碟掉了兩塊的解決過程
一.伺服器資料恢復故障描述
需要進行資料恢復的伺服器共10個磁碟櫃,每個磁碟櫃滿配24塊硬碟。其9個儲存櫃用作資料儲存使用,另外1個儲存櫃用作後設資料儲存使用。後設資料儲存裡一共24塊146G硬碟,其中設定了9組RAID 1陣列,1組4盤位RAID 10陣列,4個熱備硬碟。
資料儲存中,每6塊硬碟設定一組RAID 5陣列,共36組RAID,這36組RAID陣列中,又分為2個儲存系統。其中1個儲存系統中,一組RAID由於2塊硬碟先後故障離線,導致RAID陣列失效,整個儲存系統癱瘓,無法使用。
儲存及檔案系統架構大致如下圖一:
注:Meta_LUN(後設資料卷) Data_LUN(使用者資料卷)
二.磁碟備份
為避免伺服器資料恢復過程中由於誤操作對原始磁碟造成二次破壞, 先使用WinHex軟體對客戶的儲存環境進行備份。
備份過程如下圖二所示:
對故障RAID中的6塊成員盤進行編號標記,將硬碟從儲存櫃中拔出,接入到準備好的備份平臺上,對6塊硬碟進行備份。
對其餘沒有出現故障的RAID陣列,進行儲存層面的備份。使用光纖線纜將備份平臺和儲存裝置連線,進入昆騰儲存裝置管理介面配置備份平臺和儲存裝置可以正常通訊,使用WinHex軟體對RAID中的LUN進行映象備份。
在備份過程中發現故障RAID中的1塊故障硬碟存在大量的壞道區域,在備份的過程出現故障,無法繼續備份。對故障硬碟進行開盤更換韌體,並使用PC3000工具進行修復後,硬碟可以繼續備份,但壞道仍然存在。圖三:
部分映象檔案
三.資料分析
先對故障的RAID陣列進行分析,獲取到相關的RAID資訊,使用WinHex軟體對RAID陣列進行虛擬重組,並將RAID中的LUN恢復成映象檔案。在分析過程中發現,損壞較嚴重的硬碟為後離線硬碟,由於此硬碟存在大量壞道,可能對恢復結果產生影響。
登陸昆騰儲存裝置的管理介面,獲取到StorNext檔案系統中卷相關的一些基本資訊,如下圖四:
繼續對StorNext檔案系統中的Meta卷和Data捲進行分析,客戶的StorNext檔案系統中,包含2個Data卷,完整的Data卷都是由多組RAID中的LUN組成的,對這些LUN進行分析,得到LUN之間組合的演算法規律,虛擬重組出完整的Data卷。
圖五:
分析Meta卷,對Meta卷中的節點資訊和目錄項資訊,以及Meta卷和Data之間的對應關係進行分析,針對一個Meta卷管理多個Data卷的情況,研究得到Meta捲到Data卷的索引演算法。檔案節點如下圖六:
目錄塊如下圖七:
四.資料恢復
透過分析研究我們已經獲取到了恢復工作所需資訊,開始編寫程式,掃描Meta卷中的節點資訊和目錄項資訊,同時對目錄項和節點進行解析,獲取完整的檔案系統目錄結構,解析節點中的指標資訊,將這些資訊記錄在資料庫中。
檔案資訊如下圖八:
編寫檔案提取程式,讀取資料庫,根據解析出的資訊以及兩個Data卷之間的聚合演算法對資料進行提取。
五.恢復結果
對生成出的資料進行隨機抽樣檢測,資料沒有問題。將客戶所需檔案提取到本地,確認提取完成後,到客戶執行緒進行資料移交。資料移交完成,客戶對資料恢復結果表示滿意。雖然故障硬碟存在有壞道的情況,但萬幸主要資料沒有遭到破壞,資料恢復工作圓滿完成。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31380569/viewspace-2654481/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 儲存有兩塊硬碟離線恢復資料的過程硬碟
- IBM伺服器raid5兩塊硬碟離線資料恢復過程IBM伺服器AI硬碟資料恢復
- Raid5兩塊硬碟離線導致伺服器癱瘓的解決方法AI硬碟伺服器
- 伺服器掉了兩塊盤,lun丟失的資料恢復方法伺服器資料恢復
- Docker殺掉了容器?問題分析與解決過程全面覆盤Docker
- IBM ds4700 兩塊硬碟掉線資料恢復過程IBM硬碟資料恢復
- 儲存raid5陣列兩塊盤掉線的解決過程AI陣列
- raid5陣列兩塊硬碟離線資料恢復過程AI陣列硬碟資料恢復
- raid5陣列兩塊硬碟出現物理故障的資料恢復過程AI陣列硬碟資料恢復
- 別太相信陣列的安全性:兩塊硬碟離線資料恢復過程陣列硬碟資料恢復
- 【故障診斷】cr塊slot notfound解決過程
- 伺服器raid5先後兩塊盤掉線的恢復過程伺服器AI
- 伺服器硬碟意外離線的資料恢復過程伺服器硬碟資料恢復
- raid5硬碟同步過程中另一塊硬碟掉線怎麼辦AI硬碟
- 記錄一次排查解決伺服器卡死的過程伺服器
- crontab失敗的解決過程
- 記一則伺服器記憶體洩漏解決過程伺服器記憶體
- Oracle 11g Data Guard搭建過程中問題解決兩例Oracle
- 記一次asp.net 8 伺服器爆滿的解決過程ASP.NET伺服器
- 近兩天學習使用 Homestead 過程中遇到的問題及解決方法
- RS6000 更換硬碟的過程(轉)硬碟
- 一個 ExpressionChangedAfterItHasBeenCheckedError 錯誤的解決過程ExpressError
- ORA-01461的解決過程~~
- ora-01536的解決過程
- 計算機工作兩年,我決定考研的思考過程計算機
- raid5磁碟陣列2塊硬碟離線資料恢復過程AI陣列硬碟資料恢復
- nas儲存伺服器磁碟陣列失效、伺服器無法訪問解決過程伺服器陣列
- 記錄一個前端bug的解決過程前端
- Debian12 兩塊硬碟組raid1硬碟AI
- 一個lua問題解決過程
- ORA-01461解決過程
- Nginx搭建反向代理伺服器過程詳解Nginx伺服器
- 伺服器資料恢復,raid5兩塊硬碟掉線資料恢復案例伺服器資料恢復AI硬碟
- linux伺服器資料恢復方法_伺服器硬碟故障解決方案Linux伺服器資料恢復硬碟
- 儲存過程效能低的解決方法之一儲存過程
- 一次線上問題的排查解決過程
- 一次sqlldr匯入慢的解決過程SQL
- Oracle儲存過程編譯卡死的解決方法Oracle儲存過程編譯