服務案例|基於IT事件管理,提升業務連續性
數字化經濟時代,IT架構複雜性越來越高,業務連續性成為很多行業或企業最核心的任務。業務連續性管理是一個不斷提升的過程,圍繞事件“發現-響應-定位處理-降低發生”的事件處理思路,結合平臺化運維,助力業務快速提升。
我們將具體事件從監控、調查、上報和響應幾個環節來處理。即當平臺監控發現異常,進行事件優先順序分類,判斷事件處理的緊迫性,分析事件影響造成破壞程度,然後進行事故調查與診斷,快速定位識別問題,聯絡現場工程師最終解決問題,事件流程結束。
圍繞事件提升業務連續性的優勢在於:主動快速處理使業務恢復正常,將影響降至最低。流程閉環提高使用者滿意度,最大程度降低事件處理成本。下面我們來看案例的處理過程。
一、問題發現
夜間伺服器在飛速運轉,主要進行流程審批、資料庫備份、報表統計這類定時、耗時的工作。夜間無人值守的機房,加上高速飛轉的伺服器,很容易觸發故障。
2月1日凌晨4:40分,平臺接到某伺服器ping不通告警,檢測到此伺服器發生當機現象。這臺伺服器已經連續發生幾次夜間當機故障。
二、問題分析定位
根據時序圖,協助伺服器管理工程師查詢故障發生的具體原因。檢視4:40分前後,CPU,記憶體和虛擬記憶體,磁碟使用等運維引數如下
1 CPU沒有異常,空閒率達到70%以上
2、可用記憶體22.28G,充足
3、虛擬記憶體使用率只有0.49%
4、硬碟剩餘可用空間充足、
5、網路輸出輸入資料也是正常
6、在4:40-6:48左右,ping不通,伺服器已發生當機。4:40-6:48之間的伺服器執行指標引數沒有上傳
7、從伺服器發生當機前和重啟後的運維引數看,伺服器的資源配置充足,並非是資源爭用導致當機。
8、檢視伺服器執行日誌,伺服器並沒有自動進行打補丁更新,但是組策略配置有告警生成
平臺未接到安全攻擊告警,也未接收到硬體故障告警,首先排除病毒攻擊;硬體故障,伺服器資源匱乏,且近期應用軟體未升級、變更,其次則排除軟體問題。最後鎖定作業系統問題。伺服器管理工程師對作業系統進行了打補丁升級處理。後期持續對這臺伺服器進行重點監控,未產生故障,問題得到解決。
伺服器當機,可能導致客戶無法訪問,業務中斷造成巨大的經濟損失;也可能影響資料備份,導致資料丟失;夜間無人值守,故障重啟等問題不易察覺,LinkSLA智慧運維管家不僅能夠及時監測到伺服器故障,第一時間進行反饋,可以根據歷史運維指標資料,進行分析,協助使用者查詢出故障的根本原因,從根本上解決問題。
四、總結
除了實時發現告警,及時處理,流程閉環外,還需加強問題管理以及自動巡檢服務出發,從源頭上降低故障事件發生。
基於業務系統的多樣性,還可為業務發展提供依據,透過一段時間的監控資料累積,利用監控系統提供的報表功能對資料進行統計處理,幫助使用者做系統升級決策,如是否需要採購新硬體、是否需要新增系統節點等。另外,還可以利用系統的監控大屏功能,對系統的整體健康狀況做到一目瞭然,做到資源、業務的視覺化。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70013542/viewspace-2937541/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 悅數圖資料庫 v3.6.0 釋出:支援 Zone 管理,提升業務安全性和連續性資料庫
- 從資料庫角度談業務連續性資料庫
- 基於 ASK + EB 構建容器事件驅動服務事件
- 基於事件溯源與CDC的事件驅動微服務架構案例原始碼事件微服務架構原始碼
- SpringBoot2 基礎案例(12):基於轉賬案例,演示事務管理操作Spring Boot
- 關於如何提高銀行核心系統的業務連續性的幾點思路
- 基於.NET CORE微服務框架 -Api閘道器服務管理微服務框架API
- 如何管理服務業務中的專案收入?
- 連續性方程
- IoT雲服務連線性的方式
- Serverless:基於個性化服務畫像的彈性伸縮實踐Server
- 基於Nginx搭建WebDAV服務NginxWeb
- 基於阿里雲日誌服務快速打造簡版業務監控看板阿里
- 『學了就忘』Linux服務管理 — 77、RPM包安裝基於xinetd的服務的管理Linux
- 提高IT運維綜合管理能力,實現業務服務管理薦運維
- Go基於gRPC實現客戶端連入服務端GoRPC客戶端服務端
- 2.9.4 事務保護和應用的連續性
- 基於DKHadoop的智慧人社服務平臺開發案例簡述Hadoop
- SpringCloud進行nacos的服務註冊和服務管理案例SpringGCCloud
- 基於ECS搭建GitLab服務Gitlab
- 智慧圖書館:構建高效影片智慧管理方案,提升圖書館個性化服務
- 基於 Nuxt.js 服務渲染框架的後臺管理系統UXJS框架
- 基於Swoole的Process程式管理模組支付結果回撥服務
- 18.基於Consul的服務發現和ConsulManager管理
- 華為釋出全球首款基於雲的Cloud VR連線服務CloudVR
- 事件與服務容器事件
- 分散式事務:基於可靠訊息服務分散式
- 金融企業基於業務可用性管理建立監控管理體系的實踐與應用
- 5·19網路故障事件續:域名解析服務商正式報案事件
- 基於 xorm 的服務端框架 XGoServerORM服務端框架GoServer
- 基於 Swoole 搭建 WebSocket 服務詳解Web
- 基於Docker部署Dubbo+Nacos服務Docker
- 基於lbs服務應用開發
- Eventuate:基於操作CRDT的服務框架框架
- 基於畢昇上線基於大模型對應服務大模型
- 從業務連續性到資料安全合規,企業該如何應對?
- Captcha服務(後續1)APT
- 銀行業IT服務連續性體系規劃與災備自動化切換經驗行業