什麼是事件管理?看這一篇就夠了!

ruixiangyun發表於2020-11-17

維基百科 是這樣定義 事件管理(Event Management) 的,事件管理是專案管理在大型活動創新和發展中的應用,如節日、會議、慶典、婚禮、聚會、音樂會等。這裡麵包含了品牌研究、目標受眾確定、活動概念設計,以及活動實際發生前的技術協調。

如果我們把這個概念投射到IT領域, 事件管理 就是為了實現某個特定的業務訴求,將事務狀態變化資訊與 人員響應 進行聯動的一系列過程

事件管理的目標是檢測並記錄這些 事務狀態的變更 ,以便獲得對 業務風險和商業機會 的完全可見性。例如 使用者登入, 轉賬失敗,業務系統版本升級,資料備份, 伺服器維護完成 ,這些都是 團隊需要跟蹤的 變更 。儘管 這些變更 並不 直接反映 服務質量 下降,但它們可能會 暗示存在 影響 使用者體驗 的潛在 風險 。因此, 全面的 收集事件 資訊 ,確定 響應 優先順序 並採取 相應的 措施 ,就變得非常關鍵

隨著 商業模式和IT支撐環境 複雜性的增加, 團隊需要 管理的事件規模也呈指數 增長,但管理事件的 人員數量 卻沒有 得到 增加。現在,許多 團隊 每天都在 成千上萬甚至數百萬事件 打交道 受限於 資源 投入 ,幾乎不可能有效地 將高價值資訊與噪音從海量事件中分離出來,以洞察風險和機會

而這正是 事件管理 解決方案的核心能力所在 事件管理平臺透過 整合 能力對接 匯聚 事件, 過濾噪音 識別風險,並通知 適當 人員進行相應 的操作。隨著 企業數字化轉型的加速和 IT交付風險 的增高 透過整合化的事件管理平臺提升事件和關聯行動間的處理效率 ,比以往任何時候都更加重要。

 

事件相關概念的定義

在深入事件管理這個話題之前,我們需要對三個概念進行簡要的剖析,以便後續更準確的理解事件管理的含義和價值。

這三個概念分別是Event(事件),Alert(告警)和Incident(事件集)。其中,事件和告警比較容易理解和區分,但是Event和Incident在中文語境中通常都被翻譯為事件,容易造成混淆,為了對二者加以區分,我們將Event稱作事件,Incident稱作事件集。下面是這三個名詞的具體定義和說明:

- Event 事件,是事務狀態在某個時間點的客觀描述,沒有好壞之分。它由一個或多個相關指標的狀態資訊組成,這些指標狀態可被監控、分類和變更 例如: 2020/5/6  13:27:34,10.1.1.1,磁碟空間利用率為51%。 2020/5/1  09:29:32,13900000000,充值100元成功。

- Alert 告警,是主觀判定的事務異常狀態的描述。它由 監控(或其他)工具 產生 反映事物指標的異常 例如: 2020/5/6  17:25:18,10.1.1.1,磁碟空間利用率為64%,高於60%,警告級別告警。一般來說 ,事件和 告警 本身並不影響客戶 體驗和業務執行, 不需要 人員進行介入處理

- Incident 事件集,是由一個或多個相關事件和告警組成,反映業務執行或使用者體驗問題。例如:我們將10.1.1.1伺服器的 幾個 磁碟 相關 告警 (磁碟 空間利用率高於 60%,磁碟 空間利用率高於 80%,磁碟 空間 已滿) 組成 一個事件 這個事件集反映了業務 服務質量 持續 下降,影響 客戶 體驗 。事件可能不是事件 ,因為 事件也許並 沒有任何實際的客戶影響,但是所有事件 都是事件,因為事件提供了正在發生的事情 的原始上下文。

事件管理最高效的方式是以人為中心,將人和反映業務故障的事件集進行結合,而不是人員將時間浪費在處理海量的郵件和電話轟炸上,在大量的原始事件中發現和診斷問題。

 

為什麼事件管理 如此 重要

雖然我們的企業準備了非常詳盡的業務連續性保障計劃和應急預案,但是業務環境複雜度的不斷攀升和行業競爭的進一步加劇,對業務風險和商業機會的應對效率也提出了更高的要求。收集更加全面的資訊,運用智慧化的手段,幫助團隊實時評估風險和收益,提升反應速度和準確性,就變得至關重要。事件管理平臺運用事件流處理和人工智慧技術將這一過程自動化,充分挖掘海量事件中的核心高價值資訊,並將風險和機會與人員進行關聯,運用現代化的通訊和協作工具,提供更加便捷、全面、準確的事件評估和響應。

事件管理的價值還包括:

- 更主動的風險防範

- 更快速的業務恢復

- 更高效的團隊協作

- 更敏捷的實時響應

事件管理可幫助組織定義檢測和催化對任何會影響服務管理和效能的事件的正確正確響應的外觀。

 

事件管理的核心能力

事件是對事務狀態的客觀描述,有效的事件管理計劃和戰略是一個跨場景、端到端的處理流程,能夠降低或消除風險帶來的影響,挖掘和擴充新的商業機會,提升團隊的響應速度,並最佳化產出結果。

事件管理包括以下三個方面能力:

- 整合化

收集和獲取更加全面的事件資料,是更加精準的進行風險評估和商機挖掘的前提。與企業數字化生態廣泛的建立連線,實現實時的事件接收和訊息推送,確保事件在系統和人員間進行快速的流轉。

- 智慧化

結合豐富的上下文資料,主動對風險和機會進行分類、篩選、檢測,並將該資訊與資產、人員相關聯,在損失真正造成前預判,幫助團隊成員準確的掌握業務狀態和威脅,避免誤漏,更好的進行決策。

- 流程化

無需大量人工參與,自動化的處理流程幫助團隊在風險和機會尚未確認前自主開展工作。在問題處理過程中,事件按照既定的分派策略和通知方式在團隊成員中自動進行流轉,進一步提升應對效率,確保行動的有效性。

 

典型的事件管理 流程

1. 事件接入
事件 和告警由特定的工具檢測生成,並整合到統一的處理平臺。

2.事件 處理
針對不同事件源產生的事件,透過資料格式化,自定義資料提取和資料內容豐富進行資料治理,並將重複和冗餘的噪音剔除,再透過規則或演算法生成反映業務問題的事件集。

3.事件 分派
根據事件集的特徵,將通知在第一時間動態路由到個人、組、協作團隊 並透過流程化管理確保事件資訊和人員間無縫銜接。

4. 事件 響應
事件處理人員根據自身的條件,在PC端、移動端、協作工具中對事件進行認領、指派、協同、轉發、關閉等操作。

5. 事件 解決
在問題 解決 ,將 處理過程 記錄 事件解決方案中, 沉澱知識以指導後續類似場景的處理。

 

事件管理的應用場景

- 智慧運維 AIOps

智慧事件管理整合 IT 監控工具告警資訊,智慧化降低95%告警噪音,自動化事件管理流程,加強團隊協作,加速故障定位和修復,將業務影響降到最低。

- 安全資訊事件管理 SIEM

匯聚企業內、外部安全事件,透過規則引擎和事件流處理引擎,實時洞察安全風險,並利用靈活的事件處置流程,幫助團隊主動應對安全事故。

- 物聯網應用 Internet of Things

將智慧裝置、感測器的事件資訊在物聯網邊緣節點和核心節點實時進行彙總、加工,透過事件流式處理,捕獲和發現新的資料模型,挖掘更多高價值應用場景。

- 業務分析 B usiness A nalysis

打通業務運營和 IT 支撐的資料邊界,從系統中實時獲取更多的業務資料,幫助團隊對影響業務的事件做出快速、正確的反應。在危機時刻,掌控混亂局面。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69948837/viewspace-2734573/,如需轉載,請註明出處,否則將追究法律責任。

相關文章