AIOps的落地應用

Linksla發表於2022-08-17

一、AIOps在運維的五個基本要素

即質量、效能、效率、成本、安全。有很好的應用前景。


統籌規劃的優先順序方面,效率相對獨立,安全也相對獨立,接下來要先關注質量,即系統可用性,其次是效能,在此基礎上再進行最佳化成本。我們主要聚焦在運維質量上進行討論,而在效能和成本上的落地原則大同小異。


類比歷史著名醫學案例,扁鵲三兄弟。


對於常出故障的系統,最需要的是扁鵲——治大病,其次需要扁鵲二哥——治小病,最後需要扁鵲大哥——治未病。


也就是,首先要降低故障修復時間,這是規劃裡最重要、最痛的點;其次,延長無故障時間,識別並消除小隱患;最後,要透過故障演練,提前發現和解決問題,不影響使用者體驗。


規劃中最迫切的“運維質量:降低故障修復時間”有很多細分步驟,實際落地起來挑戰重重。多源多模態且訊雜比低的運維資料,關聯所需要用到的依賴資料非常複雜且不易獲得,有時資料質量也不高。


因此,決定先做的原則是要事優先,即聚焦並串連最終導致業務故障的常見異常。


首先聚焦解決這些常見故障,要有全域性視野,先抓重點細節,聚焦並串起導致那些業務故障的常見元件故障,這就是規劃AIOps時從價值角度出發的“要事優先”原則。


二、點面結合

規劃落地AIOps時,往往有兩種誤區:一是隻看有可量化價值的具體的技術點,如業務指標異常檢測;二是隻看有可量化的端對端價值的場景,而我們的原則是“點面結合”。


也許因為依賴其它技術點, 業務指標異常檢測還沒有產生端對端的效果,但是其本身有一些評估指標比如相比傳統方法提前X分鐘發現故障,這可以給予我們很大的希望。就像醫院裡的醫療裝置,比原來的裝置檢測得更準、更快,價值就應該得到認可,而不能因為需要一些其它技術點才能產生完整的端對端價值而被否認。


三、應用實踐--應急排障

在應急排障中,基於全棧資料做異常發現;基於趨勢異常訊號做關聯,從而獲得“上帝視角”。


運維排障的每個節點都是系統運轉過程中的一種可能異常,機器學習演算法,在趨勢性預測、異常檢測演算法,日誌聚類分析等方面,透過庖丁解牛的方式進行拆解,在複雜的運維場景中,完成資料高效分析,達到快速定位根因分析的效果。


四、線上值守

LinkSLA智慧運維管家無人值守能夠檢測出來零誤報的異常檢測,清晰地區分所有異常和所有新上線的應用狀態,所以我們用MOC值守進行使用者服務。


從架構角度來說,一個AIOps系統是以運維監控資料為輸入,每個元件都有其提供的服務,整體上是模擬運維人員的行為。


五、資料治理--場景與演算法齊頭並進

資料治理和AIOps應用孰先孰後,一直存在爭議。有一種觀點認為“要先做好資料治理,才可能做AIOps落地”。聽起來很有道理,但是“脫離實際業務場景來做資料治理和脫離了應用架構來做資料治理,完全是鏡花水月”。透過不斷嘗試落地AIOps場景,發現資料不足,補充完善運維資料的治理。


所以,資料治理與AIOps應用是齊頭並進、互相依賴、互相促進。一些具體場景,如有已經有標準化的資料質量標準(如指標的採集間隔和連續性),可以先嚐試實施相應治理再落地演算法。對於需要針對性治理的資料(如CMDB),則要治理與應用齊頭並進。



來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70013542/viewspace-2910759/,如需轉載,請註明出處,否則將追究法律責任。

相關文章