一文看懂博睿資料AIOps場景、演算法和能力

博睿資料 發表於 2022-05-23
演算法

數字化浪潮之下,運維能力也逐漸成為現代企業的競爭力之一。

在過去的數十年間,運維發展經歷了數個階段。從早期的手工運維到標準化運維、自動化運維,再到DevOps、AIOps,追溯整個歷程不難發現,運維方式隨著技術的不斷髮展,逐漸邁向智慧化。

2016年,Gartner面向運維提供了一個新概念——“AIOps”,中文釋義智慧運維。即其是以AI等手段為核心,為運維提供更為智慧和數字化的支撐。也就是說,把運維從“人”的要素抽離出來,更多的放到“資料”一側。其中包含的場景更加豐富,包括異常告警、告警收斂、故障分析、趨勢預測、故障畫像等等。

所謂的AIOps,簡單理解就是基於自動化運維,將AI和運維很好的結合起來。

AIOps的落地在多方面直擊傳統運維的痛點,AI演算法承擔起分析海量運維資料的重任,能夠自動、準確地發現和定位問題,從決策層面提高運營效率,為企業運營和運維工作在成本、質量和效率方面的優化提供了重要支援。

市場方面,全球IT研究機構Gartner預測:“到2022年,將有40% 的大型企業部署AIOps(智慧運維)平臺。”

可見,AIOps 在企業中的作用正在進一步放大。但事實上,很多企業對於AIOps 能解決什麼問題並不清晰,今天我們就以博睿資料的AIOps 的三大場景和演算法說起。

博睿資料的AIOps 實踐

作為領先的APM應用效能管理廠商,在AIOps實踐方面,多年來博睿資料積極擁抱人工智慧、機器學習等新技術變革的浪潮,並基於AI和機器學習技術,自主研發了“資料接入、處理、儲存與分析技術”核心技術體系,全面佈局智慧基線、異常檢測、智慧告警、關聯分析、根因分析等豐富且廣泛的智慧運維功能,並將AIOps能力融入端到端全棧監控產品線,可為傳統企業提供強大的資料處理、儲存和分析的軟體工具,幫助客戶整合各類IT運維監控資料,實現資料的統一儲存和關聯分析,打破資料孤島,構建統一的IT運維管理平臺,讓企業的IT運維更加智慧化、自動化。

在此基礎上,博睿資料還依託完整的IT運維監控能力,利用大資料和機器學習技術持續構建先進的智慧運維監控產品,2021年先後推出了搭載了AI能力的新一代APM產品Server7.0和新版的統一智慧運維平臺Dataview,不斷落地智慧異常檢測、根因分析、故障預測等場景。基於人工智慧的能力實現運維監控場景的資訊整合、特徵關聯和業務洞察,幫助企業確保數字化業務平穩執行,並保障良好的數字化體驗。

博睿資料AIOps 場景與演算法

目前,博睿資料在AIOps 技術方面主要落地了三大場景。即智慧基線預測、異常檢測及告警收斂。

首先來看智慧基線預測。

一文看懂博睿資料AIOps場景、演算法和能力

智慧基線預測指的是基於歷史資料,利用智慧演算法進行深度學習,對未來一段時間內每個時間點的數值進行精準預測,將預測值作為基線來監控和告警。

一文看懂博睿資料AIOps場景、演算法和能力

如上圖所示,對未來 24 小時的資料預測結果用虛線表示, 灰色區域代表正常資料的波動範圍。 如果實際值超出灰色區域就代表出現了異常。

IT運維人員在對業務服務資料進行問題檢測時,通常會使用動態基線來對實時資料進行檢驗和衡量。在實時資料與動態基線資料兩條曲線的擬合度相似的情況下,則該業務是較為健康的;若動態基線與實時資料離散程度較大,則當前業務存在問題。

目前,博睿資料在智慧基線預測方面應用的演算法包含實時預測演算法、離線演算法預測、流式演算法預測三種。

一文看懂博睿資料AIOps場景、演算法和能力

再來看下異常檢測。

一文看懂博睿資料AIOps場景、演算法和能力

異常檢測指的是通過歷史資料的機器學習來動態預測資料的趨勢,無須手動設定閾值,可以根據指標的資料特徵自動識別異常。

一文看懂博睿資料AIOps場景、演算法和能力

如圖所示,灰色區域代表了正常資料的波動範圍, 紅色資料點即為異常資料點。

IT運維人員在對應用服務執行狀態的檢測過程中,通過AIOps的異常檢測演算法,可以判斷圖中紅色區域的資料即為異常資料,深灰色條狀區域為可容忍的業務波動範圍。同時,運維人員也可以通過資料集特徵資料,對當前時段內資料進行事件聚合,全面分析當前事件對應用的全部影響波動範圍。

目前,博睿資料在異常檢測方面應用的演算法包括靜態基線(絕對靜態基線 +差分靜態基線) 、智慧基線+NSigma判別等。

最後來看下告警收斂。

一文看懂博睿資料AIOps場景、演算法和能力

所謂告警收斂即基於多條有關聯的告警資訊,合併為一條故障,對當前處於故障狀態的的警報可能造成的影響進行預測判斷,從而實現故障的提前預警,減少冗餘告警事件對運維工作的干擾。

目前,博睿資料在告警收斂方面應用及規劃使用的的演算法包括事件熵、頂點熵、時域關聯、文字相似度關聯、拓撲關聯、NMF+Kmeans等

一文看懂博睿資料AIOps場景、演算法和能力

為AIOps行業發展添磚加瓦

在現有博睿資料 AIOps 場景、演算法、能力的基礎上進一步延展和豐富,打磨日誌異常檢測、根因分析、影響分析、自然語言處理、DIY演算法等能力, 用 AI 演算法賦能日誌管理、一體化運維、應急自愈快恢和演算法實驗室等業務場景,助力企業加快數字化轉型程式。

一文看懂博睿資料AIOps場景、演算法和能力

隨著企業業務規模擴大,雲原生與微服務的興起,企業IT架構複雜性呈現指數級增長。而傳統的IT運維手段面臨故障發生後,查詢故障原因困難,故障平均修復時間週期長,已無法滿足新的運維要求。因此運用人工智慧賦能運維,去取代緩慢易錯的人力決策,快速給出運維決策建議,降低問題的影響並提前預警問題就成為了必然。AIOps作為目前運維發展的最高階目標,未來將會賦能運維帶給使用者全新的體驗。

但需要注意的是,當前智慧運維的很多產品和專案在企業側落地效果並不理想,究其原因可歸類為三點:一是資料採集與AI平臺割裂,多源資料之間的關聯關係缺失導致AI平臺缺乏高質量的資料,進而導致模型訓練效果不佳;二是資料採集以metric和log為主,導致應用場景較窄且存在資料孤島問題;三是AI平臺能力尚有提升空間。當前落地的場景多以異常檢測與智慧告警為主,未來需要進一步提升根因分析與故障預測的能力。

一文看懂博睿資料AIOps場景、演算法和能力


因此,未來企業首先要建設一體化監控運維平臺,一體化是智慧化的基礎。基於一體化監控運維平臺採集的高質量的可觀測資料資料以及資料之間的關聯關係,進一步將AIOps的能力落地到一體化監控運維平臺中,從而實現問題精準定位與見解能力。

此外,在實際應用中,依據信通院的相關調查,其受訪企業中只有不足20%的企業具有智慧化監控和運維決策能力,超過70%的企業在應用系統出現故障的10分鐘內一籌莫展。

各行業的數字化轉型正在改變這一現狀,不僅網際網路企業,更多傳統企業的數字化轉型為智慧運維開拓了更廣闊的市場,智慧運維有著巨大的發展空間,這也是博睿資料等行業領先企業發力的大好時機。

提升創新能力,推廣智慧運維不僅是相關服務商自身發展的要求,也是提升我國企業應用管理和運維水平的使命。

中國企業數字化轉型加速,無論是前端的應用服務迭代更新,還是後端IT運維架構的複雜度提升,都在加速培育智慧運維的成長。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70003066/viewspace-2889098/,如需轉載,請註明出處,否則將追究法律責任。