伺服器崩潰前的資料拯救實踐

cooldream2009發表於2023-10-12

前言

在伺服器的VMWARE ESXi系統環境中,我們經常需要建立虛擬機器來執行各種應用程式。然而,伺服器如果偶爾出現自動重啟以及紫屏報錯的問題,說明伺服器內部出現了故障,一般情況下重啟機器能夠解決問題,但時間一長,問題會越來越嚴重,可能會出現無法啟動的情況,這就會導致資料丟失,因此為了確保資料的安全,需要將CentOS虛擬機器上的資料備份到行動硬碟。我們的伺服器用的很長時間,上面建立了虛擬機器centos,系統中有不少重要資料,但最近伺服器經常出現各種問題,於是決定把資料做一個備份。在這篇部落格中,我將分享我解決伺服器重啟問題,紫屏問題以及備份資料的過程,希望對面臨類似問題的人提供一些幫助。

1 解決自動重啟的問題

現象描述
給伺服器接上電源,按下開關後,伺服器首先是Configuring Memory ... Done,然後是Initializing IDRAC ... Done,然後就是一些啟動資訊,但有一個突出的錯誤警告提示,“Alert! System fatal error during previous boot Uncorrectable Memory Error”,下面就是提示按F1繼續或者按F2鍵重新安裝系統,結果按下F1之後,又回到了Configuring Memory ... Done介面,整個過程又來了一遍,伺服器就陷入了這樣的死迴圈,就是不能進入ESXI的管理介面。

問題分析
根據報錯的提示Uncorrectable Memory Error,應該是啟動的時候記憶體出現了故障,這也是一個常見的故障點,通常的解決方法,就是將記憶體取下來,然後簡單擦一下金屬接觸點。

解決方法
於是我把伺服器的電源斷開,然後將12條記憶體全部取出來,然後做了簡單清潔,再按照原來的順序插入記憶體槽。再給伺服器接上電源,再次啟動,這次伺服器從死迴圈中跳了出來,按下F1之後,繼續進行系統檢查,經過大概5-6分鐘,終於能夠進入到了ESXI的管理介面,伺服器不斷重啟的問題得到解決。

2 備份CentOS虛擬機器資料

接下來,我需要備份CentOS虛擬機器上的資料。透過查詢資料,發現有兩種方式來備份資料,一種是備份虛擬機器磁碟檔案,另外一種是直接備份虛擬機器的檔案資料。

2.1 備份虛擬機器映象檔案

備份虛擬機器映象檔案,也有兩種方法。
方法一:手動下載虛擬機器磁碟檔案
步驟1. 訪問ESXi Web客戶端,提交所有快照並關閉要備份的虛擬機器的電源。
步驟2. 轉到“儲存”頁面,點選工具欄上的“資料儲存瀏覽器”。

步驟3. 轉到您想要備份的虛擬機器的資料夾,選中想要備份的虛擬機器磁碟檔案,然後單擊工具欄上的“下載”選項以將其單獨下載到本地作為一個備份。
步驟4. 關閉資料儲存瀏覽器視窗,您可以在下方的“近期任務”中看到任務進度條。
方法二:將虛擬機器匯出為OVF模板
步驟1. 訪問ESXi Web客戶端,提交所有快照並關閉要備份的虛擬機器的電源。
步驟2. 轉到“虛擬機器”頁面,在右側的虛擬機器列表中找到您想要備份的虛擬機器,然後滑鼠右鍵點選並選擇“匯出”>“確定”即可。

步驟3. 連續選擇兩次“儲存檔案”選項以下載.ovf檔案和.vmdk檔案,然後單擊“確定”即可開始將虛擬機器匯出為OVF模板,從而完成ESXi虛擬機器備份任務,您可以在下方的“近期任務”中看到任務進度條(完成後,您可以單擊工具欄上的下載按鈕來查詢這些檔案的儲存位置)。

2.2 備份虛擬機器檔案資料

首先將行動硬碟接到伺服器。
步驟1. 訪問VMware ESXi Web客戶端,導航到虛擬機器,然後右鍵單擊虛擬機器名稱,選擇“編輯設定”。
步驟2. 在彈出視窗的虛擬硬體選項卡中,單擊“新增其他裝置”>“USB裝置”。
步驟3. 點選“新建USB裝置”,在下拉選單中找到自己的USB裝置,然後點選“儲存”即可將自己的USB裝置直通到虛擬機器中。

其次將行動硬碟掛載到centos
透過mount /dev/sdb1 /mnt命令,把行動硬碟掛載到/mnt上。
第三,將centos的資料壓縮儲存到行動硬碟
cd /mnt
tar cvpzf backup.tgz / --exclude=/proc --exclude=/lost+found --exclude=/backup.tgz --exclude=/mnt --exclude=/sys
說明:
tar 部分就是我們將要使用的軟體。
'cvpfz'是我們給tar加的選項,像“建立一個壓縮文件”(這是顯然的),“儲存許可權”(以便使每一個相同的檔案有相同的許可權),以及“gzip”(縮減大小)。接下來,是壓縮文件將獲得的名稱,在我們的例子中是backup.tgz。
緊隨其後的是我們想要備份的根目錄。既然我們想備份所有東西:/。接著就是我們要剔除的目錄了:我們不想備份每一樣東西,因為包括有些目錄不是非常有用。同時確保你沒有把備份檔案本身也加進去了,否則,你會得到怪異的結 果的。你也許同樣不打算把/mnt資料夾包括進來——如果你在那兒掛載了其他分割槽——否則最終你會把那些也備份的。

3 紫屏問題

在複製過程中,還碰到了紫屏問題,或者說紫屏當機,是一種讓任何管理員都感到頭痛的問題。它經常意味著記憶體問題。
記憶體問題可能導致伺服器的不穩定和紫屏當機。記憶體插拔可能聽起來有點像“拆東牆補西牆”,但在一些情況下,它確實能奇蹟般地解決問題。當然,這不是永久解決方案,只是應急手段。

碰到紫屏問題,報錯是硬體出現了故障,不過透過重啟伺服器,還是能夠使用一段時間,就像Windows的藍色畫面現象,只能趁著系統執行正常的短暫時間把資料備份起來。
因為資料比較多,一次全部備份花的時間很長,出現紫屏,就會重新開始備份,遇到這種情況,只能分批次備份資料。在伺服器能夠正常執行的時候儘量多備份,直到全部備份為止。
經過多次重啟伺服器,終於全部將伺服器的資料備份完成。

4 勝利與反思

最終,我成功地複製了所有的資料,避免了資料丟失的災難。雖然這個過程中經歷了不少的波折,但最後的勝利感覺真是美好。這次的拯救資料也留下了一些寶貴的經驗教訓。

定期備份資料:這次操作再次強調了定期備份的重要性。無論伺服器多麼穩定,硬體隨時可能出問題,備份是最好的保險。

硬體問題不容忽視:硬體問題可能導致伺服器的不穩定,需要及時處理。不要低估記憶體插拔的威力!

耐心和冷靜:在面對緊急情況時,保持冷靜和耐心是關鍵。不要驚慌失措,逐一排除問題。

小結

這個經歷教育了我在面對伺服器硬體問題時要保持耐心和冷靜。重複啟動問題以及紫屏報錯可能是硬體故障的跡象,但透過仔細插拔記憶體條,我成功地解決了這個問題。此外,及時備份資料也非常重要。不管出現什麼問題,資料的安全都應該是首要任務,這次也讓我更加熟悉了ESXi伺服器的維護和備份過程,也提醒了我在面對紫屏報錯時要冷靜應對,尋找解決問題的方法。希望這篇部落格對遇到類似問題的人提供了一些啟發和幫助。備份資料並解決硬體問題,是確保伺服器穩定執行和資料安全的關鍵步驟。

相關文章