數字化經濟時代，IT架構複雜性越來越高，業務連續性成為很多行業或企業最核心的任務。業務連續性管理是一個不斷提升的過程，圍繞事件“發現-響應-定位處理-降低發生”的事件處理思路，結合平臺化運維，助力業務快速提升。

我們將具體事件從監控、調查、上報和響應幾個環節來處理。即當平臺監控發現異常，進行事件優先順序分類，判斷事件處理的緊迫性，分析事件影響造成破壞程度，然後進行事故調查與診斷，快速定位識別問題，聯絡現場工程師最終解決問題，事件流程結束。

圍繞事件提升業務連續性的優勢在於：主動快速處理使業務恢復正常，將影響降至最低。流程閉環提高使用者滿意度，最大程度降低事件處理成本。下面我們來看案例的處理過程。

一、問題發現

夜間伺服器在飛速運轉，主要進行流程審批、資料庫備份、報表統計這類定時、耗時的工作。夜間無人值守的機房，加上高速飛轉的伺服器，很容易觸發故障。

2月1日凌晨4:40分，平臺接到某伺服器ping不通告警，檢測到此伺服器發生當機現象。這臺伺服器已經連續發生幾次夜間當機故障。

二、問題分析定位

根據時序圖，協助伺服器管理工程師查詢故障發生的具體原因。檢視4:40分前後，CPU,記憶體和虛擬記憶體，磁碟使用等運維引數如下

1 CPU沒有異常，空閒率達到70%以上

2、可用記憶體22.28G，充足

3、虛擬記憶體使用率只有0.49%

4、硬碟剩餘可用空間充足、

5、網路輸出輸入資料也是正常

6、在4：40-6:48左右，ping不通，伺服器已發生當機。4:40-6:48之間的伺服器執行指標引數沒有上傳

7、從伺服器發生當機前和重啟後的運維引數看，伺服器的資源配置充足，並非是資源爭用導致當機。

8、檢視伺服器執行日誌，伺服器並沒有自動進行打補丁更新，但是組策略配置有告警生成

平臺未接到安全攻擊告警，也未接收到硬體故障告警，首先排除病毒攻擊；硬體故障，伺服器資源匱乏，且近期應用軟體未升級、變更，其次則排除軟體問題。最後鎖定作業系統問題。伺服器管理工程師對作業系統進行了打補丁升級處理。後期持續對這臺伺服器進行重點監控，未產生故障，問題得到解決。

伺服器當機，可能導致客戶無法訪問，業務中斷造成巨大的經濟損失；也可能影響資料備份，導致資料丟失；夜間無人值守，故障重啟等問題不易察覺，LinkSLA智慧運維管家不僅能夠及時監測到伺服器故障，第一時間進行反饋，可以根據歷史運維指標資料，進行分析，協助使用者查詢出故障的根本原因，從根本上解決問題。

四、總結

除了實時發現告警，及時處理，流程閉環外，還需加強問題管理以及自動巡檢服務出發，從源頭上降低故障事件發生。

基於業務系統的多樣性，還可為業務發展提供依據，透過一段時間的監控資料累積，利用監控系統提供的報表功能對資料進行統計處理，幫助使用者做系統升級決策，如是否需要採購新硬體、是否需要新增系統節點等。另外，還可以利用系統的監控大屏功能，對系統的整體健康狀況做到一目瞭然，做到資源、業務的視覺化。

服務案例|基於IT事件管理，提升業務連續性

相關文章