融雲監控平臺「北極星」:指標異常及時告警,趨勢變化預先知悉

融云RongCloud發表於2024-11-06

說起程式設計師的痛苦時刻,深夜接到告警電話、簡訊絕對榜上有名,甚至可能留下“鈴聲 PTSD”。
圖片

這也從另一個側面提醒我們,所有在前臺給使用者絲滑體驗的網際網路產品,背後都有龐雜的系統和大量的工程師在支撐。而這其中,監控平臺是保證高併發業務穩定執行的關鍵。

作為全球上百萬款應用背後的通訊雲服務商,融雲的高可用架構能保障峰值高達 3572 億的日訊息量 100% 送達。同時,“融雲北極星【專業版】”提供完善的實時資料監控能力異常指標告警服務,可供業務進行全域性監控和問題排查。融雲專有云客戶可免費使用全部功能,非專有云客戶可透過「開發者後臺-北極星-概覽-立即升級」付費開通服務。

此前,我們曾在融雲「北極星」資料監控平臺:資料可視通曉全域性,精準分析定位問題(移步【融雲全球網際網路通訊雲】檢視)中介紹了“北極星”的業務資料實時統計、API 監控能力,包含總訊息量、訊息峰值、訊息量變化趨勢在內的全域性訊息資料,使用者同時線上資料,介面呼叫 QPS(每秒查詢率) 及報錯情況。

在實時監控資料基礎上,“融雲北極星【專業版】”還上線了豐富的告警功能,可在業務呼叫融雲 IM、RTC 介面的相關指標發生波動時,透過簡訊、郵件等方式告知相關人員及時排查和採取應對措施。

API 告警:API QPS&錯誤碼

QPS:可設定全域性或指定某個 API 的 QPS 閾值,當 QPS 大於等於設定頻率時觸發告警。

錯誤碼:可指定 HTTP 錯誤碼或業務返回錯誤碼,既可以選擇全部錯誤碼,也可選擇某個指定的錯誤碼;可根據錯誤碼出現的頻次設定告警條件,如 1 分鐘或 1 小時內出現 404 的次數為 100 次(調整範圍 1~ 10000 次)。

訊息量告警:全部&指定會話型別

可選擇全部會話型別或指定的某個會話型別告警,針對上行、分發、下行進行監控;比較時段支援與昨日同時段、上週同時段、環比上個時段作為對比參照,可選擇訊息量增長、下降某個單一維度,也可選擇異常波動選項(即無論增長還是下降,到達設定幅度後均會觸發告警)。

API 和訊息量告警均支援設定 1 分鐘、5 分鐘、30 分鐘、1 小時、3 小時的告警間隔。同一規則在設定的告警間隔內不會重複傳送告警通知;如規則設定為全域性時,不同 API 在告警間隔內會多次觸發。

全域性監控讓“融雲北極星”得以對 IM 和 RTC 服務進行全域性追蹤,是保障服務效能的關鍵手段;實時告警則可以支援開發者掌握業務波動,從而有的放矢地對業務進行管理和最佳化。

相關文章