服務案例|基於IT事件管理,提升業務連續性

Linksla發表於2023-03-01

數字化經濟時代,IT架構複雜性越來越高,業務連續性成為很多行業或企業最核心的任務。業務連續性管理是一個不斷提升的過程,圍繞事件“發現-響應-定位處理-降低發生”的事件處理思路,結合平臺化運維,助力業務快速提升。

我們將具體事件從監控、調查、上報和響應幾個環節來處理。即當平臺監控發現異常,進行事件優先順序分類,判斷事件處理的緊迫性,分析事件影響造成破壞程度,然後進行事故調查與診斷,快速定位識別問題,聯絡現場工程師最終解決問題,事件流程結束。

圍繞事件提升業務連續性的優勢在於:主動快速處理使業務恢復正常,將影響降至最低。流程閉環提高使用者滿意度,最大程度降低事件處理成本。下面我們來看案例的處理過程。

一、問題發現

夜間伺服器在飛速運轉,主要進行流程審批、資料庫備份、報表統計這類定時、耗時的工作。夜間無人值守的機房,加上高速飛轉的伺服器,很容易觸發故障。

2月1日凌晨4:40分,平臺接到某伺服器ping不通告警,檢測到此伺服器發生當機現象。這臺伺服器已經連續發生幾次夜間當機故障。

二、問題分析定位

根據時序圖,協助伺服器管理工程師查詢故障發生的具體原因。檢視4:40分前後,CPU,記憶體和虛擬記憶體,磁碟使用等運維引數如下

1 CPU沒有異常,空閒率達到70%以上

2、可用記憶體22.28G,充足

3、虛擬記憶體使用率只有0.49%

4、硬碟剩餘可用空間充足、


5、網路輸出輸入資料也是正常


6、在4:40-6:48左右,ping不通,伺服器已發生當機。4:40-6:48之間的伺服器執行指標引數沒有上傳

7、從伺服器發生當機前和重啟後的運維引數看,伺服器的資源配置充足,並非是資源爭用導致當機。

8、檢視伺服器執行日誌,伺服器並沒有自動進行打補丁更新,但是組策略配置有告警生成


平臺未接到安全攻擊告警,也未接收到硬體故障告警,首先排除病毒攻擊;硬體故障,伺服器資源匱乏,且近期應用軟體未升級、變更,其次則排除軟體問題。最後鎖定作業系統問題。伺服器管理工程師對作業系統進行了打補丁升級處理。後期持續對這臺伺服器進行重點監控,未產生故障,問題得到解決。

伺服器當機,可能導致客戶無法訪問,業務中斷造成巨大的經濟損失;也可能影響資料備份,導致資料丟失;夜間無人值守,故障重啟等問題不易察覺,LinkSLA智慧運維管家不僅能夠及時監測到伺服器故障,第一時間進行反饋,可以根據歷史運維指標資料,進行分析,協助使用者查詢出故障的根本原因,從根本上解決問題。

四、總結

除了實時發現告警,及時處理,流程閉環外,還需加強問題管理以及自動巡檢服務出發,從源頭上降低故障事件發生。

基於業務系統的多樣性,還可為業務發展提供依據,透過一段時間的監控資料累積,利用監控系統提供的報表功能對資料進行統計處理,幫助使用者做系統升級決策,如是否需要採購新硬體、是否需要新增系統節點等。另外,還可以利用系統的監控大屏功能,對系統的整體健康狀況做到一目瞭然,做到資源、業務的視覺化。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70013542/viewspace-2937541/,如需轉載,請註明出處,否則將追究法律責任。

相關文章