睿象雲高科|淺談事件管理

睿象雲發表於2020-11-17

“維基百科”是這樣定義事件管理(Event Management)的,事件管理是專案管理在大型活動創新和發展中的應用,如節日、會議、慶典、婚禮、聚會、音樂會、集會等。這裡麵包含了品牌研究、目標受眾確定、活動概念設計,以及活動實際發生前的技術協調。
如果我們把這個概念投射到IT領域,事件管理就是為了實現某個特定的業務訴求,將事務狀態變化資訊與人員響應進行聯動的一系列過程。
事件管理的目標是檢測並記錄這些事務狀態的變更,以便獲得對業務風險和商業機會的完全可見性。例如:使用者登入,轉賬失敗,業務系統版本升級,資料備份,伺服器維護完成,這些都是團隊需要跟蹤的變更。儘管這些變更並不直接反映服務質量的下降,但它們可能會暗示存在影響使用者體驗的潛在風險。因此,全面的收集事件資訊,確定響應優先順序,並採取相應的措施,就變得非常關鍵。
隨著商業模式和IT支撐環境複雜性的增加,團隊需要管理的事件規模也呈指數級增長,但管理事件的人員數量卻沒有得到增加。現在,許多團隊每天都在和成千上萬甚至數百萬事件打交道,受限於資源投入,幾乎不可能有效地將高價值資訊與噪音從海量事件中分離出來,以洞察風險和機會。
而這正是事件管理解決方案的核心能力所在。事件管理平臺通過整合能力對接和匯聚事件,過濾噪音,識別風險,並通知適當人員進行相應的操作。隨著企業數字化轉型的加速和IT交付風險的增高,通過整合化的事件管理平臺提升事件和關聯行動間的處理效率,比以往任何時候都更加重要。

事件相關概念的定義
在深入事件管理這個話題之前,我們需要對三個概念進行簡要的剖析,以便後續更準確的理解事件管理的含義和價值。
這三個概念分別是Event(事件),Alert(告警)和Incident(事件集)。其中,事件和告警比較容易理解和區分,但是Event和Incident在中文語境中通常都被翻譯為事件,容易造成混淆,為了對二者加以區分,我們將Event稱作事件,Incident稱作事件集。下面是這三個名詞的具體定義和說明:

  • Event 事件,是事務狀態在某個時間點的客觀描述,沒有好壞之分。它由一個或多個相關指標的狀態資訊組成,這些指標狀態可被監控、分類和變更。例如:2020/5/6 13:27:34,10.1.1.1,磁碟空間利用率為51%。2020/5/1 09:29:32,13900000000,充值100元成功。
  • Alert 告警,是主觀判定的事務異常狀態的描述。它由監控(或其他)工具產生,反映事物指標的異常。例如:2020/5/6 17:25:18,10.1.1.1,磁碟空間利用率為64%,高於60%,警告級別告警。一般來說,事件和告警本身並不影響客戶體驗和業務執行,不需要人員進行介入處理。
  • Incident 事件集,是由一個或多個相關事件和告警組成,反映業務執行或使用者體驗問題。例如:我們將10.1.1.1伺服器的幾個磁碟相關告警(磁碟空間利用率高於60%,磁碟空間利用率高於80%,磁碟空間已滿)組成一個事件集,這個事件集反映了業務服務質量持續下降,影響了客戶體驗。事件可能不是事件集,因為事件也許並沒有任何實際的客戶影響,但是所有事件集都是事件,因為事件提供了正在發生的事情集的原始上下文。 事件管理最高效的方式是以人為中心,將人和反映業務故障的事件集進行結合,而不是人員將時間浪費在處理海量的郵件和電話轟炸上,在大量的原始事件中發現和診斷問題。

為什麼事件管理如此重要
雖然我們的企業準備了非常詳盡的業務連續性保障計劃和應急預案,但是業務環境複雜度的不斷攀升和行業競爭的進一步加劇,對業務風險和商業機會的應對效率也提出了更高的要求。收集更加全面的資訊,運用智慧化的手段,幫助團隊實時評估風險和收益,提升反應速度和準確性,就變得至關重要。事件管理平臺運用事件流處理和人工智慧技術將這一過程自動化,充分挖掘海量事件中的核心高價值資訊,並將風險和機會與人員進行關聯,運用現代化的通訊和協作工具,提供更加便捷、全面、準確的事件評估和響應。
事件管理的價值還包括:

  • 更主動的風險防範
  • 更快速的業務恢復
  • 更高效的團隊協作
  • 更敏捷的實時響應 事件管理可幫助組織定義檢測和催化對任何會影響服務管理和效能的事件的正確正確響應的外觀。

事件管理的核心能力
事件是對事務狀態的客觀描述,有效的事件管理計劃和戰略是一個跨場景、端到端的處理流程,能夠降低或消除風險帶來的影響,挖掘和擴充新的商業機會,提升團隊的響應速度,並優化產出結果。
事件管理包括以下三個方面能力:

  • 整合化 收集和獲取更加全面的事件資料,是更加精準的進行風險評估和商機挖掘的前提。與企業數字化生態廣泛的建立連線,實現實時的事件接收和訊息推送,確保事件在系統和人員間進行快速的流轉。
  • 智慧化 結合豐富的上下文資料,主動對風險和機會進行分類、篩選、檢測,並將該資訊與資產、人員相關聯,在損失真正造成前預判,幫助團隊成員準確的掌握業務狀態和威脅,避免誤漏,更好的進行決策。
  • 流程化 無需大量人工參與,自動化的處理流程幫助團隊在風險和機會尚未確認前自主開展工作。在問題處理過程中,事件按照既定的分派策略和通知方式在團隊成員中自動進行流轉,進一步提升應對效率,確保行動的有效性。

典型的事件管理流程

1.事件接入
事件和告警由特定的工具檢測生成,並整合到統一的處理平臺。
2.事件處理
針對不同事件源產生的事件,通過資料格式化,自定義資料提取和資料內容豐富進行資料治理,並將重複和冗餘的噪音剔除,再通過規則或演算法生成反映業務問題的事件集。
3.事件分派
根據事件集的特徵,將通知在第一時間動態路由到個人、組、協作團隊,並通過流程化管理確保事件資訊和人員間無縫銜接。
4.事件響應
事件處理人員根據自身的條件,在PC端、移動端、協作工具中對事件進行認領、指派、協同、轉發、關閉等操作。
5.事件解決
在問題解決後,將處理過程記錄到事件解決方案中,沉澱知識以指導後續類似場景的處理。

事件管理的應用場景

  • 智慧運維 AIOps 智慧事件管理整合 IT 監控工具告警資訊,智慧化降低95%告警噪音,自動化事件管理流程,加強團隊協作,加速故障定位和修復,將業務影響降到最低。
  • 安全資訊事件管理 SIEM 匯聚企業內、外部安全事件,通過規則引擎和事件流處理引擎,實時洞察安全風險,並利用靈活的事件處置流程,幫助團隊主動應對安全事故。
  • 物聯網應用 Internet of Things 將智慧裝置、感測器的事件資訊在物聯網邊緣節點和核心節點實時進行彙總、加工,通過事件流式處理,捕獲和發現新的資料模型,挖掘更多高價值應用場景。
  • 業務分析 Business Analysis 打通業務運營和 IT 支撐的資料邊界,從系統中實時獲取更多的業務資料,幫助團隊對影響業務的事件做出快速、正確的反應。在危機時刻,掌控混亂局面。

相關文章