AI - 一文了解AIOps的含義、特點與功用

Anliven發表於2024-08-28


AIOps定義

AIOps是智慧運維(Artificial Intelligence forITOperations)的英文縮寫。
當今,專業廠商根據自身理解和商業目的,分別給出了各具特色的AIOps定義。
主要關鍵字:IT運維、人工智慧 (AI)、機器學習(ML)、自然語言處理(NLP)、大資料、資料分析、運營效率等。

以下是來自Elastic、IBM、Amazon、RedHat和華為的資訊。

### Elastic
AIOps結合大資料和 Machine Learning,將包括異常檢測、事件關聯以及運營資料採集和處理在內的IT流程實現自動化。
藉助AIOps,團隊能夠大幅減少大規模檢測、瞭解、調查和解決事件所需的時間和精力。
進而,在故障排查期間節省時間便可讓IT團隊將更多精力投入到更有價值的任務和專案上。


### IBM
AIOps是指應用人工智慧 (AI) 技術,例如自然語言處理和機器學習模型,自動執行和簡化運營工作流程。
具體而言,智慧運維AIOps使用大資料、分析技術和機器學習能力執行以下操作:
- 收集並彙總由多個IT基礎架構元件、應用需求與效能監視工具以及服務工單系統持續生成的海量資料
- 智慧篩選,從"噪聲"中確定"訊號",識別與系統效能和可用性問題相關的重要事件和模式。
- 診斷根本原因,並將其報告給IT和DevOps團隊,以便他們快速做出響應和採取補救措施,或在某些情況下無需人工干預,可自動解決問題。 
- 透過將多個單獨的手動IT運營工具替換為單一的智慧自動化IT運營平臺,智慧運維AIOps使IT運營團隊能夠更快地作出響應,甚至主動處理慢速和中斷事件,從而大幅減少工作量。
智慧運維AIOps可以縮小下面兩大對立面之間的差距:
一方面是日益多樣化、動態且難以監控的IT環境,另一方面是使用者對應用程式效能和可用性幾乎或根本無中斷的期望。 
大多數專家都認為智慧運維AIOps是IT運營管理的未來形式,而且隨著企業日益關注數字化轉型計劃,這種需求會只增不減。


### Amazon
AIOps用於IT運維的人工智慧(AIOps)是指使用人工智慧(AI)技術維護IT基礎設施的過程。
可以自動執行關鍵運維任務,例如效能監控、工作負載排程和資料備份。
AIOps技術使用現代機器學習(ML)、自然語言處理(NLP)和其他高階AI 方法來提高IT運營效率。
AIOps技術可以收集和分析許多不同來源的資料,為IT運維提供主動、個性化和實時的見解。


### RedHat
AIOps是用於IT運維的人工智慧。
AIOps既是指一種IT運維方法,也是一種整合式軟體系統,使用資料科學來增強人工解決問題和透過系統解決問題的能力。
AIOps將大資料與人工智慧或機器學習相結合,以增強或部分取代廣泛的IT運維流程和任務。


### 華為
AIOps是指利用人工智慧(AI)等技術,精準地管控和分析IT系統中的海量運維資料,並透過自動化、智慧化的方式來最佳化運維流程、提高運維效率和運維質量。
AIOps的特點是利用機器學習、深度學習等AI技術,對運維類資料進行分析和處理,從而對運維目標進行健康度評估、智慧定位和異常分析,甚至發現潛在問題,提升目標系統的可用性和穩定性。
AIOps將會成為IT運維的重要發展方向,幫助企業更加高效、智慧地實現數字化轉型。


AIOps的運作與特點

1 - 整合與適配

AIOps工具集與在用的工具和系統進行全面整合和適配,是收集和分析大量原始可觀測性資料的必要基礎。
透過部署大資料、機器學習和自動化等元件,可以實時提取、聚合和分析大量資訊。

2 - 資料彙集

通常使用可擴充套件的資料平臺從複雜的系統環境中彙集所有型別的IT資料:日誌檔案、配置資料、指標、事件和告警等。

  • 基礎架構和網路:網元資訊、互聯關係、網路流量等
  • 裝置系統:日誌、狀態等
  • 應用程式:應用日誌、業務資料、需求資料、痕跡資訊
  • 指標和效能:正常執行時間、停機時間、服務級別指標、併發數、響應時間等
  • 實時事件:錯誤、身份驗證嘗試、防火牆警報、工單等
  • 歷史資料:效能和事件資料
  • ......

3 - 觀察與監測

支援和提高可觀測性、APM 等功能,使用服務依賴關係對映功能和分散式跟蹤,在基礎層面上監測多個不同系統的執行狀態。
提供直觀的視覺化檢視來檢視基礎架構、流程、事務流和依賴關係,能夠從宏觀角度更好地瞭解系統的執行狀態。

4 - 整合分析

使用可跟蹤的指標定義運維健康狀況,然後將其作為AIOps系統的基線。
梳理IT運營資料,識別重要告警,將訊號(即重要的異常事件警報)與噪聲(其他資料)分離。
可以識別業務模式並將日誌和效能資料中的事件關聯起來,感知應用程式和基礎架構級別的狀態,分析和確定問題的原因,並提出問題解決的建議。

5 - 自動應對與人工參與

透過AIOps簡化了診斷和評估工作,減少對傳統IT指標和提示的依賴,部分場景下,AIOps可以自動進行響應和處理。
自動將警報和建議的解決方案傳送給相應的IT團隊,可以根據問題的性質和解決方案來組建響應團隊,甚至是在使用者意識到問題之前實時解決問題。
專業人員根據機器學習演算法生成的分析結果建立自動響應,部署更智慧的系統,從歷史事件中吸取經驗教訓,並使用自動化指令碼預先防範類似的問題。
因此,對於複雜和全新的問題場景,仍然需要專業人員的參與,AIOps可以輔助進行驗證和確認問題解決方案。

技術特點

以下內容來自IBM:

根據Gartner的定義,AIOps產品或平臺主要包括以下5類技術要素:
- 資料來源:來自各IT基礎設施的底層記錄資料。
- 大資料平臺:用於處理、分析靜態和動態實時資料。
- 計算與分析:資料預處理、資料標準化等清洗工作。
- 演算法:用於計算和分析,以產生IT運維場景所需的結果。
- 機器學習:包括無監督、有監督和半監督學習。

從整體上看,AIOps的關鍵能力:基於AI的核心演算法、無縫地與IT系統整合、多後設資料的整合。
其中,演算法是AIOps的核心能力。
當前AIOps演算法主要集中在異常檢測、預測和根因分析,主要技術趨勢如下:
- 異常檢測技術:傳統領域以有監督演算法為主,AIOps領域以有監督和無監督演算法結合為主。
- 預測技術:從傳統機器學習發展到以LSTM(Long Short Term Memory,長短期記憶)為代表的深度學習。
- 根因分析技術:傳統採用關聯規則和無監督演算法,應用知識圖譜演算法進行根因分析是新趨勢。

AIOps的功用

在人工運維階段,主要依賴運維專家的工作經驗來進行故障分析、定位和排障,整體運維效率不高,且需較長時間的積累。
在自動化運維階段,運維團隊使用指令碼、工具等方式執行運維任務,運維效率有了明顯提升,但運維團隊需要掌握自動化運維工具的開發和迭代,學習難度高。

當今大規模IT系統的運維形勢與需求

  • IT系統複雜度和規模不斷增長,各種新技術和新架構層出不窮,各類資料爆炸式增長
  • 面對海量資料、不停變化的系統狀態、繁多的業務應用和不同的配置引數

在AIOps階段,透過BigData、ML、AI等技術元件,自動地學習和分析海量運維資料,給出運維決策建議,可增強和部分取代現有運維流程和操作。

  • 縮短故障排查時間:提供事件關聯功能,進行根本原因分析,提高服務可用性
  • 打破資料孤島,提供通用框架聚合多個資料來源,提升整體態勢感知能力:跨系統、跨團隊
  • 自動對事件做出個性化響應:發現和過濾誤報,讓團隊人員更關注於處理關鍵任務
  • 更積極主動解決IT運營問題:預測可能會出現問題的場景和運維趨勢
  • 更妥善地執行IT策略來支援業務決策:不斷從資料流中學習和迭代

場景和用例

功能場景

應用程式效能監控(APM)

AIOps作為雲基礎架構、虛擬化和儲存系統的監控工具,大規模收集和編譯相關指標,能夠報告使用情況、可用性和響應時間等指標。
利用事件關聯功能,整合與彙總資訊,幫助終端使用者更有效地使用資訊。

根本原因分析

快速處理大資料,並在多個可能的原因之間建立關聯,有效地幫助確定事件的根本原因,而不僅僅是表面症狀或提醒。
避免無關和不必要的工作,快速解決核心問題,確定保護措施以防止將來出現類似問題。

異常檢測

AIOps工具可以梳理大量歷史資料,發現資料集中的非典型資料點,作為感知和預測問題事件的訊號
AIOps實時評估和預測偏離監控資料標準分佈的異常值,快速檢測資料偏差並加快執行糾正措施。
因此,藉助AIOps可以減少管理事件期間對系統提醒的依賴,還可以設定基於規則的策略以自動執行補救措施。

雲自動化和最佳化

AIOps可以提供工作負載的透明度、可觀測性和自動化,按需預置和擴充套件計算資源。
透過直觀呈現環境中的相互依賴關係,有助於降低雲遷移和混合多雲環境(私有云、公有云、多個提供商)的運營風險

應用程式開發支援

AIOps工具可以自動地提前進行程式碼審查,應用程式設計最佳實踐,以及在開發階段的早期檢測錯誤。
支援DevOps所需的基礎架構可視性和自動化功能,而無需完成大量額外的管理工作。

人員用例

AIOps可以幫助團隊檢測和應對潛在問題,只是讓機器完成雜務,而方向盤仍由專業人員操控。
工程師需要具備理解、整合或編寫底層AI 指令碼能力,能夠將事件關聯和警報引擎轉化為執行引擎。

  • 應用站點可靠性工程師(SRE):定義黃金訊號(延遲、錯誤率、流量和飽和)
  • 開發人員:使用AIOps分析來執行根本原因分析(RCA)
  • 業務負責人:使用AIOps來監控 SRE 所用的黃金訊號,從終端使用者角度瞭解應用的效能
  • 運維人員:使用AIOps來監控混合雲、多雲和基於微服務的IT環境,監控狀態,簡化運維

概念的區分與聯絡

AIOps與DevOps

DevOps是一組過程、方法與系統的統稱,重視溝通合作的文化、運動或慣例,代表了組織文化的轉變。
用於促進開發(應用程式/軟體工程)、技術運營和質量保障(QA)部門之間的溝通、協作與整合。
精簡了開發和運營流程,使得軟體生命週期中的構建、測試、釋出環節能夠更加地快捷、頻繁和可靠。
技術上主要透過採用持續整合和持續部署 (CI/CD) 的方式來簡化工作,以資訊共享彌合開發和支援工作流程之間的差距。

AIOps是一種使用人工智慧技術來支援現有IT流程的方法。
AIOps結合了AI 和ML技術來監測和管理各個系統,實現運維過程的智慧化,以便更快地解決問題。

DevOps和AIOps都是用於最佳化軟體開發和運維的方法論,都凸顯了自動化的益處:消除耗時的人工作業。
DevOps側重於最佳化開發和運維之間的協作和自動化,注重軟體交付流程的最佳化,旨在加快軟體交付的速度和質量,強調團隊合作和持續整合。
AIOps側重於利用AI和ML等技術來最佳化運維過程,透過資料分析和推理預測來實現智慧化的運維管理,強調實時的故障檢測、自動化和智慧化的故障處理和資源最佳化。
透過將AIOps和DevOps結合使用,可讓團隊檢視整個系統的執行情況,而不是專注於特定工具和基礎架構層。

  • 持續評估編碼質量並縮短軟體交付時間
  • 在開發和運維過程中透過將資料分析任務進行自動化來為DevOps流程提供補充
  • 有助於更明智的決策,並主動提醒注意任何問題

AIOps與SRE

站點可靠性工程(SRE)是一種工程團隊可用於自動化系統操作和使用軟體工具執行檢查的方法。
SRE 團隊不依賴手動方法,而是透過自動檢測和解決問題來改善軟體可靠性和客戶體驗。
AIOps使用業務運營的海量資料和基於機器學習的預測性見解來幫助SRE工程師縮短事件解決時間。

AIOps與MLOps

MLOps框架可幫助軟體團隊將機器學習模型整合到數字產品中,涉及模型選擇和資料準備,包括在生產環境中訓練、評估和部署機器學習應用程式的過程。
MLOps的重點是在生產環境中部署、維護和監測模型。這可能包括納入反饋輸入,以重新部署經改進的模型。
AIOps使用ML來提高IT運營的效率,而MLOps則用於實現ML模型部署的標準化。

AIOps與DataOps

藉助DataOps計劃,組織可最佳化商業智慧應用程式的資料使用情況。
DataOps涉及設定資料管道,資料工程師可以使用這些管道從不同域提取、轉換和傳輸資料,以此支援業務運營。
AIOps使用DataOps提供的資訊來檢測、分析和解決事件。


總結

AIOps的優勢

AIOps面向IT運維,是一個效能性的技術棧和工具集,而非生產性的。
AIOps覆蓋了“資料採集 > 資料分析 > 運維決策 > 處理執行 > 異常預測”的運維關鍵鏈條,可以幫助運維人員快速發現、精準處理IT系統的異常事件。

  • 更廣泛的資訊聚合:多資訊源、多種類資訊
  • 更強的分析:BigData、ML、NLP、AI
  • 更全面的整體維度:對IT環境的全方位瞭解,跨越系統、部門和團隊
  • 更快的反應:縮短MTTR(Mean Time To Repair,平均修復時間)
  • 更主動的行為:主動性運維
  • 更準確的預測:預測性運維
  • 更易理解的展現:統一的資訊出口、針對性的資訊過濾

AIOps的挑戰

沒有單一的AIOps工具、AIOps平臺或AIOps產品。
因為每個企業和機構的開發和生產環境都有自己的特點和獨特之處,構建的任何AIOps解決方案必須能夠整合、分析這些各種因素並進行處理。
獨立開發和落地能夠帶來顯著效能提升的可用AIOps,需要建立在一定規模和標準的基礎之上,並且需要巨大的專業性投入。

  • 專業知識:廣泛的資料科學專業知識
  • 基礎架構:標準化的平臺和功能,針對特定基礎架構訓練AIOps
  • 價值實現時間:設計、實施、部署和管理的難度大,價值回報週期長
  • 資料:AIOps的結果質量取決於資料來源的質量,對運維資料的數量、質量和一致性的要求高
  • 集體協議:為系統健康奠定基礎並制定標準運維目標需要多方的廣泛支援和共識
  • 環境與範圍:涉及因素多,環境變化快,難以建立基線
  • 失敗率:AI專案失敗率非常高,實現效益難度大

參考資訊

  • 什麼是AIOps?https://www.elastic.co/cn/what-is/aiops
  • 什麼是AIOps? https://aws.amazon.com/cn/what-is/aiops/
  • 什麼是AIOps? https://www.redhat.com/zh/topics/ai/what-is-aiops
  • 什麼是智慧運維AIOps(智慧運維平臺)?https://www.ibm.com/cn-zh/topics/aiops
  • 什麼是AIOps?https://info.support.huawei.com/info-finder/encyclopedia/zh/AIOps.html
  • https://www.purestorage.com/knowledge/what-is-aiops.html

相關文章