資料庫自治平臺 KAP 監控告警架構及例項演示

KaiwuDB發表於2023-03-14

一、KAP 監控告警功能介紹

KAP 是 KaiwuDB 的自治服務工具,在 KAP 中監控主要是幫助使用者全面掌握 KaiwuDB 叢集的整體執行情況,實時監測叢集相關效能,並支援定製化的模板展示各種指標資料。


在告警管理中系統可以根據配置的規則、訂閱、通知等資訊進行告警,幫助使用者及早發現問題、解決問題,從而提高被監控叢集持續服務的能力,有效保障資料庫服務的穩定性、安全及可靠性。


二、監控告警的技術架構

KAP 的監控告警實現了多叢集監控指標及日誌的採集、儲存,支援平臺監控展示和告警監測和推送。具體流程如下圖所示:



三、監控實現

(1)metric 指標採集

metrics 由 metric name 和 label name 組成。

{=,…},儲存相關指標名稱如下表所示:



(2)指標型別:

  • Counter(計數器):累計度量指標,只能遞增、不能為負,也不支援減少,但可以重置回 0;

  • Gauge(儀表盤):用於儲存有著起伏特徵的指標資料,例如記憶體空閒大小;

  • Histogram(直方圖):對每個取樣點進行統計,打到各個分類值中(bucket);對每個取樣點值累計和(sum);對取樣點的次數累計和(count);

  • Summary(摘要):Histogram 的擴充套件型別,直接由監控端自行聚合計算出分位數,並計算結果給 prometheus server 的樣本採取請求。


四、告警實現

  • 告警規則管理可支援設定指標觸發規則、告警範圍、告警等級、告警詳情等資訊,系統根據定製的規則檢測指標值,滿足觸發條件後生成告警事件;

  • 告警通道,是告警事件傳送的通道,使告警事件、告警日誌、錯誤日誌推送至配置好的伺服器;

  • 告警訂閱實現使用者根據需要推送告警規則。支援使用者自定義告警資訊傳送方式,即透過哪些通道推送哪些分組內告警事件資訊。如不配置訂閱則只能在告警事件中檢視告警資訊;

  • 告警事件中使用者可以檢視歷史產生的告警事件,點選時間可檢視對應告警事件的詳情。瞭解發生告警的節點、產生時間、恢復時間、最後一次告警時間、告警概述、告警詳情,以及告警通知資訊。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70027415/viewspace-2939643/,如需轉載,請註明出處,否則將追究法律責任。

相關文章