不要只把AIOps看作是運維技術

大雄45發表於2022-09-17
導讀 如Gartner定義中提出,AIOps應用需要利用大資料,現代機器學習技術和其他高階分析技術,是一種相對較高門檻的工作模式。

近日一篇《智慧運維行業亂象:估值虛高、上市受阻、裁員頻現》網文在運維圈十分火爆,有一些觀點十分吸引人。今天,不對文章觀點做評價,摘一小段《數智萬物下運維》系列下我對金融企業智慧運維的理解。

AIOps是運維的方向,但AIOps不能單純的認為一種技術手段或技術平臺,而應該是數智時代人機協同的運維模式。

一、人機協同的AIOps運維工作模式

一種新的工作模式出現,必然會對原來穩定的工作模式進行改變,改變通常會受到新挑戰,所以新工作模式需要能解決當前運維工作中遇到的難題而出現。以金融行業的業務連續性管理為例,目標是提高公司的風險防範能力、有效地減少非計劃的業務中斷、防範運維操作風險,對於首次出現的未知異常能夠利用工具量化分析並快速定位,確保在重大災難性事件發生後能按計劃恢復業務連續性是傳統。在面對當前複雜的技術架構、不斷引入的創新技術、快速迭代的軟體版本、嚴峻的資訊保安威脅下,傳統運維團隊原來被動救火式、問題驅動式、操作運維、經驗運維已經很難實現企業業務連續性的保障目標。金融企業執行安全穩定,需要運維資料賦予資料洞察、輔助決策、跟蹤執行的能力,提升複雜環境下的運維管理能力,即:

    1. 實時獲得“發生了什麼?”;

 

    1. 關聯分析“為什麼會發生?”;

 

    1. 智慧預測“將會發生什麼?”;

 

    1. 決策判斷“採取什麼措施?”;

 

    1. 自動執行“如何快速執行?”

 

  1. 實時感知“工作執行的效果?”

AIOps就是為了解決上述問題而生,相比傳統的運維工作模式,AIOps重點不是創造一種全新的運維工作模式,而是對現有“專家經驗+最佳實踐流程+工具平臺” 運維模式的補充,為企業運維工作提供“洞察感知、運營決策、機器執行”能力,支援向“人機協同”模式轉變。

不要只把AIOps看作是運維技術不要只把AIOps看作是運維技術

為什麼是“人機協同”的模式,而不是智慧化的模式呢?因為從當前AIOps的應用情況看,雖然人工智慧技術領先,但當面對複雜、多變、資訊不完全的環境,特別是應用於需要複雜應急保障場景時,仍不具備替代專家,更多的應用在某些特定弱人工智慧領域。“人機協同”聚焦在透過機器輔助人的決策與執行,是在原來運維組織內部參與者,以及運維以外的研發、測試、廠商等協同網路上,增加機器人角色,形成人機協同的運維模式。人機協同的運維模式,最關鍵的角色仍是人,利用人的創造力,結合機器所提供的資料和演算法,輔助人進行運維工作開展。總的來說,人機協同需要發揮人與機器人特長,形成一個融合的解決方案,後續AIOps的重點推進方向可以圍繞三點:

    1. “資料+演算法”為運維專家賦能“實時感知、輔助決策”的能力。

 

    1. 增加運維機器人崗位,重塑 “大計算” 、“海量資料分析”、“操作性”、“流程化”、“規律性” 、“7*24”、“人機體驗”等型別的運維工作。

 

  1. 建立數字平臺化管理模式,閉環落實決策執行。
二、資料、演算法、場景、知識組成AIOps關鍵4要素

如Gartner定義中提出,AIOps應用需要利用大資料,現代機器學習技術和其他高階分析技術,是一種相對較高門檻的工作模式。為了更好地落地AIOps,運維組織需要深刻地理解AIOps的內涵,重點實現思路:以資料為基礎、演算法為支撐、場景為導向,知識為擴充套件的AIOps4要素。

1、以資料為基礎

資料為先,AIOps需要快速生產高質量資料的能力。“快速”的思路可以以“中臺”思路進行建設,建立統一的資料採控、實時與批次的資料處理能力、與運維相匹配的運維演算法、儲存方案、主資料、指標模型等;“高質量”則從將分散資料統一、線上後形成“活資料”,以及資料質量上的治理。從技術實現看,具備實時“採、存、算、管、用”的資料流動全生命週期管理的能力。其中,資料採集是按需線上採集資料的能力;資料儲存是根據資料型別、資料應用特點對資料進行歸檔、整理、傳輸、共享;資料計算包括資料標註、清洗、建模、加工、標準化、質量監控,以及為了獲得資料洞察、決策、執行而對資料進行分析統計;資料管理重點圍繞資料治理的,包括運維資料標準、主資料、後設資料、資料質量、資料安全的管理;資料使用重點圍繞資料服務角度涉及的資料目錄、服務門戶,以及配套的資料服務化能力。

2、以演算法為支撐

演算法大腦,適配、引入特定場景下運維演算法,構建演算法模型體系。機器學習尤其是深度學習的大規模應用,推動了人工智慧的快速發展。隨著國內TOB市場的火爆,AIOps上人工智慧研究及應用正處於爆發期,引入AI技術的演算法有三點優勢:一是工作穩定性高,人工智慧可不知疲倦地進行工作,在規律性問題的分析時不受環境影響。二是降低操作風險,利用人工智慧取代傳統人工經驗操作,可更好地避免操作風險和道德風險。三是有效提高決策效率,人工智慧可以快速地對大資料進行篩選和分析,幫助人們更高效率地決策。作為金融企業,一方面,由於人才、薪酬結構等方面不足,在演算法的建設上應該更多地與外部供應商合作;另一方面,對演算法的追求不一定是技術的先進性,事實上規律性的專家經驗落地也是一種演算法的實現,而且很多時候更加可靠。對於當前主流的演算法參見上一節提到了的常用演算法,這裡不再重複。

3、以場景為導向

場景驅動,以痛點、價值期望切入點,用智慧賦能運維場景,落地智慧運維能力。AIOps從詞來看,應該包括“AI+Ops”,是用AI賦能運維場景的模式。有了上面提到的資料底座與演算法大腦,下一步是AIOps運維模式的落地,主要將圍繞場景的落地,一種是利用演算法賦能已有的運維場景,另一種是演算法實現原來無法實現的運維場景。前者是一個快速見效的模式,後者是應對變化而做出的變化。

4、以知識為擴充套件

運維知識描述了大量運維領域的相關物件定義、技巧,以及排故/解決經驗的資訊。運維知識圖譜是把運維物件不同種類的資訊連線在一起而得到的一個關係網路,是對運維資料進行表達的關鍵技術。透過構建運維知識圖譜,從海量資料中自動挖掘各類運維主體,對其特性進行畫像和結構化描述,動態記錄運維主體之間的關聯關係。基於運維知識圖譜,利用自然語義等演算法技術,可以幫助IT人員實現故障鏈傳播分析、根因定位、智慧的變更影響分析、故障預測等多種AIOps場景。

三、AIOps的一些其他觀點
1、建立場景地圖,體系化、有節奏地落地AIOps

與AI技術在當前大部分領域的應用類似,AI是一種平臺能力,而不是業務。以網上銀行系統為例,PC端的網上銀行解決從櫃檯到臨櫃的便利性問題,手機銀行解決從滑鼠鍵盤操作到手指劃屏、隨時操作的操控問題,AI的影片、語言識別等技術又給手機銀行解決從觸屏到沉浸智慧的體驗問題。在這個過程中,很多業務的本質仍未改變,所以面對AIOps,運維組織需要建立場景地圖,基於場景地圖分好優先順序,看如何將AI的優勢賦能給運維場景的具體環節。

2、“活資料”是運維智慧化的基礎

活資料有兩個含義,一是指資料是活的,即資料全線上;二是資料被活用,即在資料不斷應用中完善併產生新資料,形成資料迴流。以往運維資料分析主要基於批次離線資料建立報告輔助決策,但很多運維工作場景需要實時資料分析支撐。所以,需要利用運維資料平臺實現機器資料實時採控落地資料資產,再場景化實現資料消費,並建立資料應用執行的反饋不斷最佳化資料驅動的工作流程,形成更為準確的資料。所以,實現活資料中有三個關鍵要素,一是構建協同網路的運維工作場景,協同網路需要打破線上工作流程孤島,打通“人、組織、軟體、硬體”之間的網路連線;二是運維組織要建立運維資料平臺將生產執行的相關資料匯聚在一起,並抽象成資料服務,以便利的方式為運維場景提供價值;三要不斷消費資料,在資料消費中發現問題,修正資料,挖掘資料增值服務,產生新的資料。

3、第一印象很重要

AIOps作為全新的工作模式,給使用者第一印象是可靠、可用,如果第一印象是懷疑態度,對後續工作模式的運營推廣會帶來較大挑戰。AIOps的演算法最需要解決的問題是,改變人對“演算法準確性”的印象,即“演算法”的引入不是為了創新,而是為了確實解決真實問題而出現。以輔助故障定位為例,一個正常運作的運維組織日常很多故障通常能夠透過專家經驗、監控工具、有效的協作機制得到處理。引入AIOps對於故障管理的賦能,一是為了更快,二是為了更準。得益於機器的自動化、算力等特點,透過設計好的線上應急場景,“快”的問題可預測能得到解決;但對於“準”則多少有黑盒子的意味,所以在應用演算法時要持謹慎的思路,解決問題遠比演算法先進重要。

最後,不管是運維團隊中的工具研發,還是廠商,在推動AIOps模式時,都應關注一線運維專家的經驗,以及落地運維模式的配套工作機制,才能將人、流程、工具與具體的“事”連線成真實可用的場景。

原文來自:


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69955379/viewspace-2915112/,如需轉載,請註明出處,否則將追究法律責任。

相關文章