一不小心晉級“CCF國際AIOps挑戰賽”決賽

天翼雲開發者社群發表於2022-08-16

     近期,由天翼雲研發二部雲終端基礎平臺團隊組成的 “翼起飛”戰隊,在2022 CCF國際AIOps挑戰賽中, 以第三名的成績強勢晉級決賽, 並將於 8月13日參加最終的決賽答辯, 作為唯一一支進入決賽的運營商隊伍, 此次晉級意味著天翼雲的智慧運維能力已處於業內領先水平。  

    國際 AIOps挑戰賽由清華大學聯合中國計算機學會(CCF)共同發起,是智慧運維領域的國際頂尖賽事,備受全球關注。今年, 挑戰賽以 “微服務架構電商系統下故障識別和分類”為賽題,吸引了海內外300多支隊伍參加, 包括來自上海交通大學、華中科技大學近千名運維領域和 AI領域的高手參賽。

    此次賽題設計源於 AIOps的核心場景——故障快速發現與診斷,比賽資料基於微服務架構的模擬電商系統,要求參賽選手在雲環境下完成演算法模型調優、線上評測等操作。

    “翼起飛”戰隊成員一直深耕於雲終端底層平臺的研發工作,同時在雲平臺運維中積極踐行DevOps及AIOps等理念,在自動化、智慧化運維方面積累了豐富經驗。

    此次參賽是天翼雲 “翼起飛”戰隊針對比賽多模態資料,創新設計了基於多模態資料協同的異常檢測演算法, 在複賽中一舉奪得第三名的好成績並進入決賽。

    就具體賽題而言,本次比賽在測評階段仿照生產環境監控資料的獲取和檢測模式,透過訂閱 kafka推送的實時監控資料流,要求選手自行設計快速和高魯棒性的異常檢測演算法和故障分類演算法,實現準確、高效、通用的故障檢測和故障分類。

    一方面,主辦方提供了海量多模態監控資料,包括應用服務的動態拓撲、實時呼叫鏈資料、實時業務黃金指標、效能指標(來自於容器、作業系統和 JVM等)和日誌,其中指標名稱與指標所在物件的組合約有5000多種,每天的資料約有6G,與實際運維場景的資料量接近,同時指標資料每天有將近800萬行,日誌和呼叫鏈每天的資料量各有上千萬行,進行實時異常檢測難度極大。

 

部分指標和日誌資料進行視覺化後的樣例圖


    另一方面,賽事組織方在短時間內集中組織連續多天的實時測評,最後根據各參賽隊伍提交的結果,對故障檢測延遲、故障檢測準確率、檢測召回率、定位準確率和分類準確率進行綜合評分,這需要選手對演算法方案持續進行快速迭代最佳化。

    對此, “翼起飛”戰隊提出了一種 多模態資料協同的檢測模型,並採用了無監督和有監督結合的演算法體系, 結合優秀的程式碼工程實踐以及多年雲平臺建設和運維經驗,實現了故障快速發現與診斷,取得了卓越的實際效果,充分踐行了 “知識+資料+演算法+算力”的AI 3.0理念,在海內外參賽選手中脫穎而出。

    此次參賽推動了天翼雲與業界優質研發團隊及學術機構的切磋交流,同時也展示了天翼雲多年的雲平臺建設和運維成果。 基於此次賽事所創新設計的多模態監控資料分析和異常檢測演算法,也將應用到未來超大規模雲平臺管理和運維實踐中。

    對於決賽, “翼起飛”戰隊充滿信心,將與賽事選手共推AIOps的落地應用,讓先進的數字技術與方案早日普惠大眾。

 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70014251/viewspace-2910606/,如需轉載,請註明出處,否則將追究法律責任。

相關文章