應急響應中你到底該關注哪些指標?

安全頻道發表於2022-02-23

背景

回首2021年工作,主要重心是放在了安全運營上。既然負責安全運營自然也逃不開應急響應這一茬。在這個用數字“說話”的時代,那必須是要把應急響應KPI給整的明明白白的。領導們愛看,同行們也可以用來參考。

首先需要明確的一點是,我個人是不排斥數字“說話”的,前提是大家對於應急響應KPI的理解必須一致。為什麼這樣說?主要是避免後期在覆盤的時候在KPI的時間上進行過多的“Battle”。同時也是希望大家可以真正理解這個KPI的含義,千萬不要大手一揮,今年我們的MTTR是XX。

今天這一篇文章主要就是介紹應急響應中的KPI。不過在討論之前,還是得簡單的介紹一下什麼是應急響應。

什麼是應急響應?

“應急響應”對應的英文是“Incident Response”(IR),是一種處理安全事件、漏洞和網路威脅的結構化 方法。通常是指一個組織為了應對各種意外事件的發生所做的準備以及在事件發生後所採取的 措施

應急響應流程

應急響應流程可以參考NIST其中明確了應急響應4個階段並細分出了6個步驟。

img

準備階段:人員、預案手冊(Playbook)、工具;

檢測與分析階段:確認安全事件型別,明確事件等級;

遏制、根除和恢復階段:立即止損,根據安全事件型別選擇對應的遏制方法並制定恢復計劃;

事後總結:從本次的安全事件中改進流程,並將新資料反饋到應急響應流程的準備階段。你應該詢問、調查並記錄以下問題的答案:

    • 發生了什麼,在什麼時候?

    • 事件響應小組對事件的處理情況如何?是否遵循了流程,是否足夠?

    • 更早地發現還需要哪些資訊?

    • 是否採取了任何導致損壞或阻礙恢復的錯誤操作?

    • 如果下次發生同樣的事件,我們可以採取哪些不同的做法?

    • 我們能否與其他組織或其他部門更好地分享資訊?

    • 我們是否學會了防止類似事件再次發生的方法?

    • 我們是否發現了類似事件的新預兆或跡象,以供將來觀察?

    • 需要哪些額外的工具或資源來幫助預防或減輕類似事件?

應急響應指標

MTTD

什麼是MTTD?
MTTD:平均檢測時間(Mean time to detect )。MTTD是指從系統故障到檢測或告警所需的平均時間。

如何計算MTTD?
MTTD = 故障與檢測之間的總時間/事件數量
例如:某系統在12:00發生故障,但直到12:10才有人注意到或被提醒,那麼此時MTTD是10分鐘。

MTTA

什麼是MTTA?
MTTA:平均確認時間(Mean time to acknowledge)。MTTA是指從系統產生告警到人員開始注意並處理的平均時間。

如何計算MTTA?
MTTA = 檢測與確認之間的總時間/事件數量
例如:安全元件在12:10檢測併傳送告警後,應急響應人員在12:15開始處理該事件。那麼此時MTTA是5分鐘。

MTTI

什麼是MTTI?
MTTI:平均調查時間(Mean time to investigate)。MTTI是指從確認一個安全事件到開始調查其原因和解決方案的平均時間。

如何計算MTTI?
MTTI = 確認告警與分析調查之間的總時間/事件數量
例如:某安全運營人員在12:15開始處理告警並在12:30完成初步分析及擬定止損方案。那麼此時MTTI是15分鐘。

MTTC

什麼是MTTC?
MTTC:平均遏制時間(Mean Time to contain)。MTTC是指安全團隊找到威脅者並阻止他們進一步進入你的系統和網路所需的時間。

如何計算MTTC?
MTTC = 分析調查與快速止損之間的總時間/事件數量
例如:自安全事件在12:10被檢測到後,應急響應人員在12:45成功遏制了攻擊者的利用方式並阻斷了通訊隧道,有效地防止攻擊者進行下一步入侵。
注意:遏制可能是隔離一個電子郵件賬戶,重設一個使用者密碼,或關閉一個伺服器。遏制是走向恢復的第一步。應急響應團隊越快遏制住威脅行為者,越能降低企業受到更大風險的可能性。

MTTR

MTTR有4種不同的測量方法,這是由於 R可以代表修復(repair)、恢復(recovery/restore)、響應(respond)和解決(resolve)。雖然這4個指標有重疊,但它們都有各自的含義和細微差別。安全人員通常關注的是  平均響應時間這個指標。

1.平均修復時間(Mean time to repair)

什麼是MTTR(平均修復時間)?
MTTR是修復一個系統的平均時間。它包括維修時間和測試時間,直到系統再次完全運作。

如何計算MTTR(平均修復時間)?
MTTR = 將修復時間與恢復時間相加/修復次數
例如:一週內有10次停電,修復系統花費了4個小時。四個小時是240分鐘。240除以10是24。這意味著在這種情況下,修復的平均時間是24分鐘。
注意:平均修復時間並不總是與系統中斷本身的時間相同。在某些情況下,修復這個動作是在產品故障或系統中斷後的幾分鐘內開始。

2.平均恢復時間(Mean time to recovery/restore)

什麼是MTTR(平均恢復時間)?
MTTR(平均恢復時間)是指從產品或系統故障中恢復的平均時間。這包括從系統或產品發生故障到其重新完全運作的整個中斷時間。

如何計算MTTR(平均恢復時間)?
MTTR = 將故障時間與恢復時間相加/故障數量
例如:我們的系統在24小時內在兩個獨立事件中停機了30分鐘。30除以2是15,所以我們的MTTR是15分鐘。
注意:這個指標它包括故障現象出現到告警發出的這段延遲時間與respond有著明顯的區別。

3.平均解決時間(Mean time to resolve)

什麼是MTTR(平均解決時間)?
MTTR(平均解決時間)是指完全解決一個故障所需的平均時間。這不僅包括檢測故障、診斷問題和修復問題的時間,還包括確保故障不會再次發生的時間。 這個指標代表從“救火”到“防火”的轉變。

如何計算MTTR(平均解決時間)?
MTTR = 將故障時間與完全解決之間的時間相加/故障數量
例如:你的系統在24小時內的一次事件中總共癱瘓了兩個小時,而團隊又花了兩個小時進行修復,以確保系統中斷不會再次發生,這就是解決該問題的總時間。這意味著你的MTTR是四個小時。
注意:MTTR 最常使用工作時間(8小時)計算(假設你在下班時將故障恢復,並在第二天上班時解決潛在問題,那麼你的 MTTR 將不包括下班的16小時)。如果你的團隊在能夠7X24小時,或者有值班員工在下班後工作,那麼這個指標將可以進行適當的微調。

4.平均響應時間(Mean time to respond)

什麼是MTTR(平均響應時間)?
MTTR(平均響應時間)是指從第一次收到警報時起,直到產品或系統從故障中恢復所需的平均時間。

如何計算MTTR(平均響應時間)?
MTTR = 檢測告警與服務恢復之間的總時間/事件數量
示例:如果你在一個40小時的工作周裡發生了四起事件,並且在這些事件上總共花了一個小時(從警報到恢復),那麼你那一週的MTTR將是15分鐘。
注意:平均響應時間不考慮問題已經存在但未被識別的時間。

舉個“栗子”

應急響應KPI時間線

image-20220208010258629

1.MTTD:告警群在12:05上報一起安全告警,(假設告警每5分鐘同步一次到群裡,理想情況下告警應近乎實時)。MTTD:5分鐘(12:05 - 12:00 = 5)

2.MTTA:安全運營團隊在12:10開始處理此告警並確認這是一起真實的網路入侵事件,同一時間應急響應團隊介入。MTTA:5分鐘(12:10 - 12:05 = 5)

3.MTTI:應急響應團隊在12:25完成初步分析並根據已有應急預案擬定遏制方案。MTTI:15分鐘(12:25 - 12:10 = 15)

4.MTTC:根據預案安全運營團隊在12:35完成了安全元件的規則調整,並刪除已識別的後門木馬遏制了攻擊者的利用“路徑”。為後續的根除威脅爭取到了充足的時間。MTTC:30分鐘(12:35 - 12:05 = 30)

5.MTTR:12:50正式通知重新上線業務恢復對外服務。MTTR(Respond):45分鐘(12:50 - 12:05 = 45)、MTTR(Recovery):50分鐘(12:50 - 12:00 = 50);

來自 “ Freebuf ”, 原文作者:Shell.;原文連結:https://www.freebuf.com/articles/es/321522.html,如有侵權,請聯絡管理員刪除。

相關文章