春節運維手冊:自動巡檢、應急預案和管家值守哪個更香?

Linksla發表於2024-01-30
春節假期就要來啦,在氣氛組的不懈努力下,想要放假過年的心達到了頂峰,但總有工作離不開我,回家後還被Q,總不能視而不見吧?想要get不被工作打擾的假期, 作為 運維工程師 ,怎麼可能沒點壓箱底的絕 這個假期就給他 安排上~

假期的主要問題是人手不足,常規巡檢任務可能會大打折扣,問題的響應和處理也不及平常迅速,安全風險上升是毫無疑問的。解決這些顧慮,不妨在節前做好這些準備。

1、完善監控系統

無監控不運維,制定完善的監控策略後,運維人員可以透過一段時間的趨勢、資料表現、效能分析等讓故障提前預警,制定好故障應對策略,縮短故障處理時間。日常監控少不了,節假日則趨於更加完善、更主動的監控策略調整。

全鏈路監控,實時彙總資料分析告警,發現潛在風險,也為故障排查和解決提供提供依據。

完善監控策略,例如監控告警分級提示,值班人員可以根據監控告警級別作出簡單的問題定位與應急處理方案。緊急或者不重要的,避免過多的資訊噪音。賦予它 主動解決事件的規則,它便有為管理員處理故障的能力。


2、自動巡檢功能上線

自動巡檢主要代替人工巡檢,是節假日很受歡迎的功能。可設定實時或定時巡檢,如發現異常將及時透過微信、簡訊、郵件等渠道傳送至相關人員,無異常狀況則不打擾,幫助運維工程師及時掌握系統執行狀態,避免系統故障對業務的影響。透過自動巡檢,監控硬體、服務、日誌、網路流量等執行狀態,人不在崗,也可以隨時掌握系統的執行狀態。


3、做好應急預案

提前做好應急預案,方能有備無患。應急預案要明確應急響應流程、責任分工、聯絡方式等具體內容,確保團隊成員在緊急情況時能迅速、有序地行動。
做好備份和恢復機制,備份重要資料並建立恢復機制,確保在緊急情況下能夠快速恢復業務執行。


4、漏洞和風險管理

節前時間可進行漏洞管理,進行合理排序修復。對影響關鍵資產的漏洞優先修復,記錄關鍵資產儲存、處理、管理和可能被破壞的方式。幫助識別、分類和排序可能影響這些資產的潛在漏洞。

以修復和降低風險為目標,根據公司特定環境和風險因素,統計、評估被黑的潛在影響,做到知己知彼,有備無患。


5、惡意程式碼防範

首先,安裝和更新防病毒軟體,設定自動掃描電腦以查詢和刪除惡意程式碼。 使用防火牆阻止未授權的訪問和攻擊
其次,更新作業系統和所有已安裝的軟體,包括瀏覽和電子郵件程式,確保得到最新的安全更新和補丁
三,按照最低許可權原則設定電腦賬戶許可權,防止惡意程式碼獲得許可權。
四,備份重要的電腦和網路資料,以防惡意程式碼損壞資料。


6、機房安全管理

節前的巡檢工作務必細緻,對機房裝置進行全面巡檢,確保裝置健康無損,正常執行,檢查專案包括電源、 UPS、空調、伺服器等重要裝置的工作狀態、溫度、溼度等引數,以及是否存在異常情況。

保障供電,確保機房裝置穩定供電,可採取多電源供電的方式,裝置備用電源和 UPS系統,避免突發停電或供電不穩定導致的裝置故障。

溫溼度控制,節假日期間的機房溫溼度要保持在合理範圍,避免過熱過溼導致裝置故障,可以使用空調系統、溼度控制裝置等進行調節和監控。同時也要注意 裝置防護,防塵、防水、防靜電,避免受外界環境影響。

加強機房裝置物理安全管理,門禁系統限制只有授權人員才能進入,加強監控影片的記錄和儲存,以便追蹤和查證。



7、備份與恢復管理

對重要業務資訊、系統資料、配置資訊、軟體程式等制定明確的資料備份策略,確定備份的頻率和資料恢復的時間目標。

做好備份與恢 復管理需要制定合理的策略、選擇合適的備份介質、定期備份資料、儲存備份資料、測試備份資料可用性、管理備份檔案、建立緊急恢復計劃、加強資料安全管理,並評估備份與恢復策略的有效性。

確保備份的安全性,避免資料洩露、丟失或被篡改。透過加密備份資料,限制備份訪問許可權以及使用安全儲存介質等方式來確保備份資料的安全性。



8、配置7*24h線上管家,起飛!

LinkSLA為使用者提供7*24h的線上值守服務,解決節假日期間運維值守人員不足的情況。關注使用者系統執行狀況,及時響應異常問題,對告警進行篩選處理,無關緊要的問題略過,緊急重要的事情處理。 工單處理閉環,既降低使用者工程師的工作量,也過濾了無效告警和工單, 降低系統執行 風險,提高問題處理效率。

7*24h運維值守


這個春節,班就先替你上啦!





來自 “ ITPUB部落格 ” ,連結:https://blog.itpub.net/70013542/viewspace-3005710/,如需轉載,請註明出處,否則將追究法律責任。

相關文章