維護伺服器的五大步驟

香港cn2發表於2022-05-24

一、檢查本地硬碟

許多伺服器依靠內部硬碟驅動器來承載工作負載和儲存、儲存使用者資料和其他功能。 硬碟介質問題會嚴重影響負載效能和穩定性,最終導致硬碟故障。

磁碟介質不完善,常見問題包括壞扇區和碎片。 RAID可以比較穩定,在磁碟發生故障的情況下保證資料的穩定性和一致性,但是較小的伺服器,比如1U機架式伺服器,可能無法提供足夠的空間來實現RAID。 使用 CHKDSK(檢查磁碟)之類的工具來檢查硬碟驅動器的完整性,並嘗試修復其中損壞的扇區。 最新版本的CHKDSK for Windows Server 2012 可以快速分析和修復檔案系統結構的磁碟問題。 TG:@Sp_server

磁碟碎片不會消失,只要使用 NFS 和檔案分配表或 FAT,檔案系統就會使用第一個可用簇的磁碟空間。 碎片會降低伺服器磁碟的速度並導致故障。 Windows Server 2012 自帶的卷組最佳化等工具可以排程每個檔案叢集,保證資料的連續性。

二、檢視事件日誌輸出

伺服器事件日誌包含豐富的資訊,尤其是詳細資訊。 如果不仔細檢視系統日誌、惡意軟體日誌和其他日誌,伺服器維護是不完整的。 當然,關鍵系統問題應引起 IT 管理員和技術人員的注意,但也有無數非關鍵問題可能是長期或嚴重問題的跡象。

如果您正在維護伺服器,請檢查報告設定並驗證警報和警報收件人地址是否正確。 例如,如果技術人員離開了伺服器組,您需要更新伺服器的報告系統。 仔細檢查聯絡人列表和聯絡方式也很重要,僅將關鍵錯誤報告傳送到技術人員的公司電子郵件地址是不夠的,您需要確保可以在工作時間之外聯絡到他們。

主動分析日誌資料。 當日志審查發現長期或反覆出現的問題時,主動找到問題的解決方案並避免升級。 例如,如果伺服器日誌顯示某些記憶體模組的可恢復報告,則不會觸發嚴重警報。 但報告指出模組存在問題,IT 可以執行更詳細的診斷程式來識別即將發生的故障。

如果問題很小以至於不需要關閉伺服器,則可以將其重新聯機以繼續服務,直到需要更換硬體為止。

三、定期安裝補丁和更新

伺服器軟體堆疊——BIOS、作業系統、管理程式、驅動程式、應用程式、支援工具——必須確保所有互動和協作。 不幸的是,軟體程式碼很少是完美的或沒有任何問題,因此此類軟體問題需要頻繁的補丁或更新來修復錯誤、提高安全性、簡化操作、提高效能等。

並非所有軟體都可以自動更新,管理員需要確認需要哪些補丁或升級包,然後評估和測試更新效果。 如果更新包修復了伺服器上不存在的問題,則無需冒險。

軟體開發人員無法測試每個軟體和硬體的相容性以及補丁和更新的潛在問題,因此可能會導致更多問題,這些問題可能發生在特定的伺服器或軟體集中。 例如,用於監控軟體的代理補丁可能會導致關鍵應用程式出現效能問題,因為新代理需要比預期更高的頻寬。

更小、更頻繁的更新過程會加劇切換到 DevOps 後的潛在問題。 在部署之前,任何補丁或更新仍在實驗室環境中進行測試。 始終確保可以撤消原始更改,並且可以恢復修改前的軟體配置。

四、確保伺服器可以呼吸

關閉伺服器電源後,目視檢查其內部和外部的氣流路徑。 清除所有積聚的灰塵和碎屑,以確保冷卻空氣順暢流動。

從外部空氣入口和出口開始,然後繼續到系統機箱 CPU 散熱器和風扇元件、記憶體模組和所有冷卻風扇葉片和風道路徑。 防靜電工作區使用清潔、乾燥的壓縮空氣清除灰塵和碎屑。 不要清潔機架中的伺服器。

除塵是一個歷史悠久的傳統工藝,但這並不意味著它已經過時。 灰塵是一種熱絕緣體,需要清除,現代替代冷卻方案和 ASHARE 建議已提出提高資料中心的工作溫度。 灰塵和其他阻礙空氣流動的障礙物可能會導致伺服器使用更多的能源,甚至降水堆積也會導致某些元件過早失效。

五、堅持日常維護

伺服器管理員經常忽略計劃中的例行維護。 不要等到實際發生故障才進行維護,留出時間進行例行維護可以防止出現問題。

維護頻率取決於裝置使用年限、資料中心環境、要維護的伺服器容量等因素。 例如,與放置在配備 HEPA 過濾器的冷卻良好的資料中心中的裝置相比,放置在機房中的舊裝置需要更頻繁的檢查。 組織可以根據供應商或第三方的例行檢查策略安排日常維護計劃。 如果供應商合同規定沒有 4 個月或 6 個月的檢驗,則按計劃執行。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70017615/viewspace-2896666/,如需轉載,請註明出處,否則將追究法律責任。

相關文章