SRE 實用指南:事件嚴重性級別 - rootly

banq發表於2021-06-21

事件嚴重性級別衡量事件對業務的影響。對問題的嚴重程度進行分類對於決定問題解決的速度和效率至關重要。
在不斷增長、規模龐大的公司中,事故是不可避免的。強大的事件管理策略最終會導致更好地管理和處理問題。它是可靠性工程的重要組成部分,可確保團隊準備好管理事件。它可以防止在發生違規或停機時損失數百萬美元的收入。良好的事件管理可改善客戶體驗,並使工程團隊能夠實現正常執行時間目標。 
在此部落格中,我們將討論公司如何識別事件並確定其優先順序以加快解決速度。事件在表面上可能會有很大差異,因此必須根據特定的、明確定義的引數對它們進行分類。所有的事件都不是平等的。例如,高峰時段的系統中斷比大多數客戶睡著時的處理壓力要大得多。 
我們可以將事件分為不同的嚴重性級別。您的嚴重性級別定義得越明確,您的團隊就越有可能在同一頁面上並能夠在事件發生時快速、適當地做出反應。
 

定義事件嚴重性級別 
對嚴重性級別進行分類的第一步是確定應用程式或服務中最關鍵的流。它有助於確定事件的構成。我們可以使用“SEV”定義按嚴重程度對事件進行分類。SEV 編號較低的事件被視為“重大事件”,需要更敏捷的響應。在對嚴重性級別進行分類時,除了對業務的影響之外,我們還需要考慮各種因素。例如,應用在高峰時段當機將造成巨大的業務損失。
每個組織都需要了解他們的業務、團隊以及適合他們的 SEV 級別定義型別。一些組織將 SEV 級別分為 P0、P1、P2 等。
 

嚴重性級別分類 

  • SEV 0 或嚴重或 P0

本質上是災難性的故障,例如安全漏洞或導致目標受眾無法使用您的產品的完全中斷,將歸入 SEV0。它完全使業務陷入停頓,並可能導致收入和/或聲譽的損失。SEV0 事件通常沒有快速解決方法,需要整個工程團隊的協調努力才能解決此類事件。
  • SEV 1 或 Major 或 P1

SEV1 事件是導致產品部分或完全中斷、具有變通方法或影響部分客戶的問題。與 SEV1 相比,SEV1 事件不是完全中斷,但仍會影響客戶體驗。例如,一個單一的特徵,例如購物網站中推薦系統的中斷,就是 SEV1 事件的一個例子。它會影響購物體驗,但仍然允許有限的業務透過。此類事件通常需要立即關注,但不如 SEV1 強大。
  • SEV 2 或輕微/中度或 P2

在 SEV2 事件中,使用者可以照常完成操作,但會遇到輕微的麻煩和不便。繼續以購物網站為例,一些缺失的描述和影像可以歸類為 SEV2。此類事件有已知的快速解決方法,並且不難修復。
 

相關文章