多雲監控告警系統的優勢

coffee發表於2023-02-03

前一篇文章基於多雲構建監控告警系統講了我們是如何構建多雲監控告警的,監控告警系統的基礎資料來源於雲上,也就是說我們監控系統裡所有用到的基礎資料雲上都有,既然如此,為什麼不直接去雲控制檯上檢視,而是要構建自己的監控告警系統呢?這篇文章我們就來聊下這個話題

之所以會基於多雲構建我們自己的監控告警系統,有兩個大的前提,其一是我們接入的雲廠商比較多,同時單個雲廠商下還會有多個不同的賬號存在,雲上資源就分佈在眾多不同的雲賬號下,其二就是因為業務關係我們絕大部分監控都直接使用了雲廠商提供的雲監控。根據個人的使用體驗以及對同事們使用多雲的觀察和反饋來看,個人覺得我們自研的多雲監控系統至少具有如下幾點優勢:統一平臺、簡化操作、最佳化展示、許可權隔離、多雲融合

統一平臺

在全球化的業務背景下,我們使用了多個雲廠商的資源,同一雲廠商還有多個不同地區/功能/專案區分的賬號,監控檢視往往需要在不同雲平臺不同雲賬號之間來回切換,繁瑣且麻煩。我看到小夥伴們想要同時檢視同一雲平臺多個不同雲賬號上的資源監控情況,會同時開啟多個不同的瀏覽器,為此還專門安裝了幾個不同的瀏覽器,而我們統一了監控平臺之後,就不需要再登入雲控制檯去檢視監控了,也就不存在多個賬號切換的情況,更不需要再開多個瀏覽器了,一個系統檢視所有資源監控情況,這帶來了極大的方便

同樣的,對於告警資訊我們也做到了統一,將多雲告警集中在統一的系統裡做展示,告警大盤可以清晰的看到當前系統的整體執行狀況,增強運維對專案的整體把控能力。對於告警,不僅能夠檢視告警資訊,還能檢視和修改告警策略,專案維護流程也更加簡單高效

簡化操作

雲上監控位於不同雲平臺下,我們知道每個雲平臺對於監控的定義和操作都不同,甚至是同一雲平臺下不同雲服務之間監控的檢視路徑和展示方式都不同,且雲資源監控檢視路徑冗長,非常不便。我們的監控系統隱藏了雲廠商與雲資源的監控差異,同時簡化資源監控檢視操作,提供統一的監控入口和路徑,使用起來更方便。以一個雲主機的監控查詢為例,可以簡單對比下之前透過雲控制檯檢視與現在透過我們自己的監控系統檢視之間的差異

我們的監控系統操作步驟數,以及每一步所使用的時間都要優於雲上監控,提升使用便捷性

最佳化展示

雲上資源監控圖表樣式雜亂,不同雲廠商不同雲資源的監控圖表展示樣式都不統一,這些不統一不僅存在不同雲廠商之間,甚至是統一雲廠商的不同雲資源之間圖表展示樣式都不一樣,我們不僅對監控的檢視路徑做了最佳化,也對監控圖表的樣式做到了統一

不僅統一了圖表展示樣式,圖表的檢索方式也做到了統一,展示順序也做了最佳化,大家普遍關注的重點指標靠前放,一屏之內重要指標的變化情況盡收眼底,同時頁面與圖表的載入速度也做了最佳化,雲上監控頁面複雜,動輒上百個請求,而我們除了併發載入外,僅載入必要的資源,做到了最小化請求,圖表展示速度甚至比直接控制檯檢視還要快

許可權隔離

雲平臺上的許可權配置非常複雜,對於細粒度的資源許可權隔離幾乎無從下手,而我們的業務又比較複雜,所運維的專案不僅可能來自於不同的部門,甚至還有可能來自於不同的公司,所以雲控制檯的許可權是不授權給研發,這就造成了一旦研發需要查詢雲上資源的監控,就需要運維在中間支援。我們的監控系統天生的支援以專案為維度進行資源隔離,授權粒度也比較靈活,可以直接授權給研發自己檢視,這樣大大提升了溝通效率,加速了問題的處理

以一次複雜問題的排查為例,透過我們的監控系統大大降低了溝通成本,加快了問題的修復速度

多雲融合

以上說的幾點優勢,很大程度上都依賴我們監控系統與多雲系統的深度融合,這也是我們自研監控系統的最大優勢,多雲+監控幾乎是天生一對,多雲為監控提供基礎資料,監控為多雲提供最重要的應用場景。藉助於多雲可以方便的以專案為維度查詢資源的監控資料,而無需再考慮資源位於哪個雲廠商的哪個雲賬號下,這樣複雜的多雲也變得透明。同時在告警中,藉助與多雲系統也可以直接定位告警資源所屬的專案,加快告警的響應速度

更為重要的是藉助於多雲系統的服務樹,可以方便快速的自動生成以專案服務/角色為維度的監控大盤,而無需再在雲上進行繁瑣的監控Dashboard配置。監控大盤下的資源也會隨著雲資源的生命週期變動而自動變更,使用非常方便,以往可能需要至少數小時的監控Dashboard配置,透過監控系統也就分分鐘生成

基於多雲和監控的融合,很方便的生成監控報表,為專案日常運營也提供了重要的支援,或許正是得益於方便的監控大盤構建,檢視專案監控大盤已然成為很多小夥伴的習慣,真的做成了有用又好用的系統

相關文章