滅火圖 - 故障發現和定位的入口

SRETalk發表於2024-01-23

透過深入分析和解決企業在可觀測性和穩定性保障方面的挑戰,Flashcat 提出了“滅火圖”這一關鍵概念。

  • 滅火圖以服務/模組/基礎元件/基礎設施等為維度,以聚合的視角實時度量某個特定維度的可用性(典型指標包括時延、流量、錯誤、飽和度),併為該可用性指標自動設定合理的閾值,可以回溯歷史上的指定時間點的可用性狀態(典型的跨度為24小時)。
  • 滅火圖是發現服務健康與否的入口,也是整個故障定位資訊系統的核心,從滅火圖開始,可以下鑽到具體的介面/基礎設施/鏈路分析資料/問題特徵/相關事件等關鍵維度,引導技術團隊高效、精準的定位故障。

今天詳細為大家介紹服務故障定位的入口工具:Flashcat-滅火圖

滅火圖的功能定位是什麼?

在建設和使用可觀測性平臺的過程中,我們是否經常遇到以下這些問題:

  • 資料分散:需要觀測的資料一部分在這個平臺,一部分在那個平臺,檢視和對比的時候切來切去十分苦惱
  • 資料太多:一個主機幾十個指標,一個微服務幾十個指標,追溯問題的時候成百上千的指標和日誌等各類資料,不知從何下手
  • 難以追溯:發現了服務發生問題,是否是網路裝置出現問題還是底層基礎設施出現問題?追溯時要先確定底層是哪些裝置,再依次排查對應資料,效率很低
  • 難以解決:不同的模組和裝置往往是不同的人負責的,發生問題時如果沒有負責人的及時介入,從查問題到解決問題,可能會被“踢皮球”,在過程中浪費了大量時間

透過滅火圖,我們針對性的解決監控中這些痛點,更加快速的幫助使用者發現、定位並解決問題。

滅火圖觀測層級規劃

滅火圖,是Flashcat故障定位環節的入口,也是連線Flashcat中各分析能力的核心。

我們可以透過Flashcat的北極星系統和智慧告警發現業務異常,日常巡檢中則可以透過瀏覽滅火圖,快速聚焦可能出現問題或者已經出現問題的介面、模組以及下層的元件和基礎設施,並下鑽檢視其中具體是哪一部分發生問題。

透過滅火圖卡片的關聯分析入口,檢視所有卡片相關的資料並透過靈活多樣化的分析工具和下鑽功能繼續找到問題根因並解決。

也可透過卡片告警功能對問題發生進行及時預警,以便更加及時的解決可能發生的問題。以滅火圖為入口,一站式完成問題的發現、定位、解決、預防的一系列操作。

那麼同樣也常被用作日常巡檢和問題排查的儀表盤和滅火圖又有何區別呢?

  • 【組織形態上】 滅火圖是結構化的,可以同時觀測系統的多個部分,如功能/元件/基礎設施,還可以層層下鑽,檢視具體物件的指標/日誌/鏈路/事件等,是系統的立體抽象和關鍵資料的濃縮;相比之下,儀表盤更側重於資料的平鋪、多樣化展示,各個儀表盤間往往是並列的關係,常用於監控物件明細資料的呈現。
  • 【功能上】 滅火圖基於結構化的優點,匯聚串聯了各種分析功能和排查問題的最佳實踐,比如功能卡片飄紅,我們可以下鑽檢視功能對應的指標,發現成功率下降,繼續下鑽檢視對應時間點的日誌,以及進一步檢視鏈路分析資料/問題特徵/相關事件等;儀表盤則更側重於資料展示豐富性的實現,配備簡單的變數切換檢視功能。
  • 【使用上】 在故障處理時,問題範圍收斂、排查路徑引導等環節更多需要使用到滅火圖。而當問題定位到某個具體的物件,如一臺伺服器或一個資料庫時,則可以檢視這個物件的儀表盤詳情,用於做更為詳細的分析。因此儀表盤可以作為基於滅火圖追查問題的一個最終環節,兩者結合起來加速問題的排查分析,滅火圖也提供了串聯儀表盤的功能,讓整個定位分析過程變得更為流暢。

傳統儀表盤: Flashcat 儀表盤

滅火圖: Flashcat 滅火圖

推薦一個 Flashcat 滅火圖針對C端服務的最佳實踐

  1. 將滅火圖首頁層級規劃為:介面、微服務、元件、基礎設施。
  2. 確定支援北極星業務線的核心介面(如訂單系統核心介面、使用者系統核心介面等)、微服務及對應負責人。
  3. 確定支援以上介面和微服務的元件(如MySQL、Redis、Kafka等)、基礎設施(網路、DNS等)及對應負責人。
  4. 基於滅火圖的各類别範本建立規則,規則將自動生成介面、微服務、元件和基礎設施的滅火圖卡片,並分層展示。同時規則可定期自動執行,自動更新卡片。
  5. 滅火圖能夠自動關聯日誌、trace等資訊,也可手動補充關聯,如某微服務的變更事件、某元件的儀表盤等。
  6. 巡檢或故障處理時,在滅火圖首頁觀測服務的全域性狀態,有飄紅的部分則下鑽追查,收斂問題範圍,並按關聯的線索排查相應的指標、日誌、tracing、事件等。

針對不同的行業或toC和toB的特點,滅火圖配置和觀測的物件可以靈活設定。

滅火圖故障定位流程

此外,滅火圖能夠快速生成為拓撲大屏展示形式,非技術人員也可以簡明的完成日常巡檢和異常觀察。

電商類業務拓撲圖

滅火圖的應用範圍

滅火圖是IT系統全域性健康狀態的量化,也是服務故障的處理入口,在需要穩定性保障的場景都可以發揮其價值。

例如:

  • 門店類業務
  • 出行類業務
  • 電商類業務
  • …..

滅火圖適用行業

總結

滅火圖正成為企業提升穩定性保障能力,加速故障定位不可或缺的工具。

Flashcat 故障定位流程示意

瞭解滅火圖的更多詳情請訪問快貓星雲官網:https://flashcat.cloud/

相關文章