避免警報疲勞:每個 K8s 工程團隊的 8 個技巧

落魄運維發表於2021-12-10

避免警報疲勞:每個 K8s 工程團隊的 8 個技巧

監控 Kubernetes 叢集並不容易,警報疲勞通常是一個問題。閱讀這篇文章,瞭解減少警報疲勞的有用提示。
如果您是隨叫隨到團隊的一員,您可能知道什麼是警覺性疲勞以及它對您的健康有何影響。而當涉及到Kubernetes時,警報源的數量會迅速飆升。本文將反思一些引起警報疲勞的常見原因,並分享有助於減少它的技巧。

什麼是警覺性疲勞?

簡單來說,當您在一天內收到大量與工作相關的警報時,就會發生警報疲勞,即使它們是不可操作的。不合理的大量警報會降低您的工作效率,因為您會從工作中抽出太多時間來不時確認警報。
如果您在工作時間之外收到此類警報,它們將開始擾亂您的工作與生活平衡。為了建立一個高效和快樂的團隊,關鍵是要減少不必要的警報,並專注於提供價值和可操作的內容。

如何減少警報疲勞

讓我們討論一些實用的技巧和技巧,以減少您和您的團隊成員的警覺疲勞。

提示 #1:明確定義您的指標和閾值

解決任何問題的第一步是清楚地定義它。在我們的例子中,警報的原因是指標上的閾值;因此,為它們確定正確的指標和適當的閾值至關重要。對於基於 Kubernetes 的專案,您需要超越標準的指標集。您應該監控 Pod 的生命週期以及節點和叢集的單個資源消耗,以保持對系統的控制。

當涉及到標準指標時,您應該設定額外的閾值和警報,以瞭解何時出現異常行為。例如,您可以設定多個磁碟使用警告警報並根據嚴重性對它們進行分類,以瞭解何時介入並檢查您的系統是否存在問題。同樣,您可以使用其他指標,例如CPU 消耗、記憶體消耗等。

提示 #2:根據嚴重性定義警報層次和優先順序

從大量資料中獲取有用資訊的最佳方法之一是對其進行組織。同樣,您應該將警報組織成類別並根據它們修改警報行為。

首先,您可以根據系統事件對服務正常執行時間的影響,將系統事件分為嚴重、警告和異常類別。然後,您可以將警報工具配置為僅針對關鍵事件傳送警報。這樣,您將減少團隊收到的警報總數,並且每個警報都要求他們採取行動,而不是簡單地予以確認。您還可以為每個事件類別分配不同的團隊,以密切關注系統。

提示 #3:將類似的警報組合在一起

雖然對事件進行分類有助於組織警報,但它仍然不能解決一個主要問題:重複。您可能會收到系統中重複發生的事件的重複警報。或者,您可能會收到針對已解決問題的重複警報,因為您的警報工具不夠智慧。唯一的解決方案是切換到智慧監控解決方案,在團隊和成員之間可靠地同步警報。

對於源自重複事件的重複警報,您還可以考慮應用過濾器和規則將類似的警報組合在一起。您可以依靠事件提供的資訊來確定它們是否重複發生。這樣,您可以針對許多類似問題發出更少的警報,並且您的成員可以在需要時通過監控平臺訪問所有其他警報。

提示 #4:儘可能多地收集有關警報的上下文資料

要增強警報分類和聚合,您需要資料。因此,您應該集中精力收集有關係統中發生的事件的儘可能多的資訊。此資訊將幫助您區分重複事件,並幫助您確定外觀相似的事件是否需要特別注意。除了提高警報策略的質量外,它還可以在以後解決問題時為您提供幫助。

提示 #5:在您的團隊中定義明確的角色並相應地直接發出警報

只有當您對您的團隊執行相同操作時,對警報進行分類才有效。每當您的基礎設施遇到警告時,向整個團隊傳送警報是沒有意義的。您需要設計一個事件管理層次結構,並使您的警報工具與其保持一致,以邏輯地升級問題。

如前所述,您可以將錯誤類別與團隊進行匹配,或者根據錯誤源自的基礎架構部分將錯誤與團隊進行匹配。只有您才能確定哪種層次結構最適合您的特定用例。

提示 #6:斷開與不相關的警報來源的連線

這適用於每個人,您的所有團隊成員都應遵守。團隊在多個專案上工作並且其中一些專案被轉移到另一個團隊或完全退役是很自然的。但是,這些專案的警報訂閱可能沒有及時更新,從而導致不時向您傳送不相關的警報。確保儘快取消訂閱,以減少警報噪音。

對於仍分配給您的專案,可能會將問題分配給其他團隊成員,但會向整個團隊傳送警報。為了清理您的警報收件箱,最好也儘快取消訂閱。

提示 #7:抑制非工作時間以外的非緊急警報

警報疲勞不僅僅發生在工作時間;它也會讓你在他們之外感到沮喪。理想情況下,您的團隊應該選擇一種警報工具,該工具允許在設定的持續時間內抑制和推遲警報。如果該工具可以根據警報分類(傳送關鍵警報並推遲其他警報)來做到這一點,那就更好了。這將幫助您在工作場所之外保持健康的心理生活方式。

如果抑制警報對您來說太過分了,您可以考慮將它們委派給在您離開時處於活動狀態的另一個團隊成員。大多數隨叫隨到的團隊成員分散在世界各地,以保持 24x7 全天候監視系統執行狀況。將警報轉移給活躍成員有助於其他人在不工作時放鬆。

提示 #8:在重大中斷時,取消所有警報以專注於恢復

如果您大部分事情都做對了,並且您的警報遊戲是正確的,您可以考慮在努力從重大中斷中恢復的同時抑制所有警報。在發生重大事件時,許多基礎設施元件可能會出現故障並立即向您傳送大量警報。一旦找到了中斷的原因,就可以抑制其他一切並專注於修復它。

但是,您仍有可能錯過中斷期間發生的其他重要警報。因此,最好將您的警報轉發給不與您一起進行修復的其他團隊成員。

結論

警報疲勞是真實存在的,如果不及時檢查,它會迅速影響您的健康和工作效率。因此,您應該始終選擇一種工具,以減少不必要的警報噪音,同時讓您瞭解應用程式的最新基本更新。將有效的工具與有效的警報策略相結合將提高您團隊的輸出,同時保持健康。

原文

相關文章