告警壓縮與降噪

ruixiangyun發表於2020-03-05

為何要壓縮告警?

運維監控工具/ 平臺,一般是透過配置固定閾值,達到閾值後自動觸發 / 生成告警。如網路中斷、閃斷;系統升級更新;裝置多監控內容多等情況下,更會產生海量告警。以下為告警管理常見問題:

故障期間,告警風暴,手機/ 郵箱會被海量告警淹沒;

運維人員很難從海量告警從篩選出重要告警,容易忽略重要告警;

固定閾值控制,頻繁誤報、漏報告警;

 

如何實現告警壓縮與降噪?

睿象雲智慧告警平臺 Cloud Alert (後文為: CA )適應不同行業、不同規模、不同運維水平公司的各種告警需求,平臺支援多維度告警壓縮合並與降噪,幫助您在不遺漏重要告警前提下,快速減少告警。

CA 實現告警降噪根據降噪程度不同,分為 事前和事後共 三種方式:

事前:也就是影響告警通知的方式;

事後:不影響告警通知的方式,可以用作事後分析判斷。

1.  自動去重壓縮; (事前)

2.  規則壓縮;(事前)

3.  演算法智慧降噪(事後)

 

自動去重(事前)

全量告警推送到CA 平臺後, CA 平臺會自動基於時間序列,將相同的事件 / 告警壓縮。不同監控工具去重壓縮機制有細微差異:根據 eventId( 事件 ID) 和告警物件,去除重複告警。

 

規則壓縮(事前)

自動 去重後的告警,會按照壓縮規則,將相似、同源( 同一裝置不同型別的資訊 ) 告警再次進行壓縮。一共分為兩種壓縮機制,分別是:

1.  演算法智慧降噪

2.  自定義壓縮規則降噪

演算法智慧降噪

主要原理是將指定時間內的告警,提取相應的關鍵詞放在一組模板中,透過我們的演算法將告警進行比對,符合要求的告警會被壓縮、整合後在進行通知。

自定義壓縮規則降噪

使用者可根據自身需求來設定主機、服務、告警內容、告警物件的壓縮條件,設定完畢後告警會根據告警壓縮規則,來進行壓縮降噪。

 

智慧演算法降噪(事後)

這個事後的演算法智慧降噪,用於使用者的告警分析,使得使用者可以清晰的排查告警主要出現的問題在哪,是在通知後進行的,所以不影響告警通知,其中有兩種降噪方式,分別是:

1.  高聚合智慧演算法降噪

2.  仿閱讀智慧演算法降噪

高聚合智慧演算法降噪

主要原理是將告警的內容,進行文字以演算法進行比較,將符合要求的告警文字進行告警聚類。

仿閱讀智慧演算法降噪

主要原理是將告警內容模板化,再將告警模板以一種特定的演算法進行對比,將符合規定的告警進行合併。

仿閱讀智慧演算法比高聚合智慧演算法,降噪條件更嚴格,因此聚類後的結果一般多於後者。

 

一個高效的壓縮與降噪方式,能夠有效的避免告警風暴問題,並且能夠減少大部分的成本。更多高效功能,歡迎訪問睿象雲智慧告警平臺,進行產品使用。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69948837/viewspace-2678701/,如需轉載,請註明出處,否則將追究法律責任。

相關文章