機器學習在 IT 運維管理中的必要性！

OneAPM官方技術部落格發表於2016-04-19

機器學習技術在監控工具中的應用已經成為 IT 運維與 DevOps 團隊的一大熱點話題。儘管相關的使用案例很多，對 IT 團隊而已真正的「殺手級應用」是機器學習如何提高實時事件管理能力，從而幫助較大規模的企業提高服務質量。對此，關鍵在於在使用者發現問題之前提早探測異常，進而減少生產事故與中斷的負面影響。

那麼，在IT運維管理的環境下，機器學習到底是什麼？

網上有不少關於機器學習的巨集觀定義：對於某給定的任務T，在合理的效能度量方案P的前提下，某計算機程式可以自主學習任務T的經驗E；隨著提供合適、優質、大量的經驗E，該程式對於任務T的效能逐步提高。更通俗的來講，即：隨著任務的不斷執行，經驗的積累會帶來計算機效能的提升。

如果在IT運維管理的前提下，也許這樣的定義更加準確：機器學習是分析資料，反覆地向資料學習，進而在不參考明確模型的情況下，找出隱藏觀點的一類方法。

在 IT 運維管理的語境中，機器學習的首要替代方案是為 IT 運維管理建立行為模型，瞭解這一點非常重要。行為模型方法要求瞭解基礎架構的所有元件，才能理解出現中斷或服務質量下降的可能原因。更確切地說，你要試著判斷哪些事件和告警模式與你希望監控的條件相匹配。

事實上，大多數 IT 運維管理工具都屬於這一類別。不論是過時的遺留事件管理器，還是使用「聚合及查詢」方法進行 IT 運維的現代工具。總之，你都要對這些工具進行一定的配置，讓它們留意你預先就知道需要搜尋的東西。

而另一方面，機器學習則使用資料本身來尋找值得留意的特徵，這些特徵可能在事先完全無法預知。例如，非監督式機器學習，可用於分析事件流或日誌訊息，從而找出異常的訊息叢集。之後，這些異常可以與某項運維結果相聯絡，從而捕獲潛在中斷的原因與症狀。

然而，監督式機器學習可用於記錄使用者針對給定告警及告警叢集的活動，並相應地做出演算法上的調整。本質上，機器學習利用資料不斷地建立並更新行為模型，而不是使用靜態的行為模型尋找特定的結果。

在 IT 數字化轉型的今天，隨之而來的規模複雜度、變更速度以及軟體抽象化等挑戰成為了機器學習應用於 IT 運維管理的理由。

如果基礎架構處於不斷變化的狀態，根本無法建立起固定的行為模型。如果你想了解來自應用與基礎架構的大量資料的意義，使用基於規則的方法無疑是死路一條。在新的軟體時代，你必須利用機器學習進行實時的資料分析，這是保證服務質量的必備條件。無可否認，IT 領域正變得越發混雜、虛擬化以及流動化，只有使用機器學習技術，才能坦然應對這些變化。

現代 IT 環境下，不斷變化的基礎架構會產生大量的事件資料需要處理。在 OneAlert，機器學習主要用於「消除噪音」。例如，面對每秒鐘成千上萬的告警事件，如何在消除噪音的同時保留有價值的資訊事件？

目前 OneAlert 產品對告警事件的壓縮率已經高達80%。基於時間片的告警資訊壓縮已經趨於成熟，基於告警屬性相似度的聚類模型能夠將告警壓縮率達到 95%。而基於機器學習的人工智慧壓縮更是能夠將告警壓縮到 99%（我們敬請期待！）

OneAlert 是北京藍海訊通科技有限公司旗下產品，是國內首個 SaaS 模式的雲告警平臺，整合國內外主流監控/支撐系統，實現一個平臺上集中處理所有 IT 事件，提升 IT 可靠性。想了解更多資訊，請訪問 OneAlert 官網，歡迎免費註冊體驗。

本文轉自 OneAPM 官方部落格

運維中的接入管理梳理
2018-04-21
運維
運維管理
2017-06-17
運維
運維效率狂飆，全在告警管理上
2023-03-08
運維
zookeeper運維管理
2016-05-11
運維
從百度運維實踐談“基於機器學習的智慧運維”
2018-03-16
運維機器學習
機器學習在客戶管理場景中的應用
2018-09-03
機器學習
多伺服器運維管理運維管理不再頭疼
2020-03-03
伺服器運維
智慧運維中的關鍵一步——告警管理
2020-04-24
運維
在IT運維管理方面的關注點（轉載）
2007-09-11
運維
機器學習中的維度災難
2018-07-31
機器學習
人工智慧在IT運維中的研究和應用
2019-05-13
人工智慧運維
機器學習和AIOps在網路效能管理中的作用
2021-02-26
機器學習AI
Shell指令碼在Linux運維工作中的地位！
2021-10-08
指令碼Linux運維
從運維到運營——IT管理的“進化論”
2017-09-01
運維
ELK在大資料運維中，有哪些作用？
2022-09-26
大資料運維
Docker 在工程運維上的探索
2018-01-31
Docker運維
IT綜合管理新時期的運維管理思路薦
2009-10-13
運維
IT管理運維工單系統如何賦能新運維
2020-04-15
運維
【linux運維】linux運維會被淘汰嗎？會消失在雲端計算中嗎？
2022-05-31
Linux運維
在組織模式中運用管理手段(轉)
2007-08-14
模式
GitLab 安裝、管理、運維
2019-09-08
Gitlab運維
Linux運維之程式管理①
2020-11-07
Linux運維
Git分支管理，運維知道嗎？
2022-11-11
Git運維
Linux日常運維管理命令
2016-03-04
Linux運維
5-23安全運維管理
2024-05-23
運維
六西格瑪在管理團隊成員中的運用
2022-11-04
軟體專案管理過程中管理手段在組織模式中的運用（轉）
2007-08-15
專案管理模式
kafka 運維中遇到的問題
2020-12-08
Kafka運維
立足信創國產化運維，打造安全可控IT運維管理系統
2022-12-29
運維
用行雲管家實現IT統一運維管理，提高運維效率
2023-11-29
運維
IT運維服務管理的實施步驟
2020-06-04
運維
運維告警管理—多渠道的通知必達
2020-05-30
運維
使用專案管理軟體的必要性
2020-10-10
專案管理
實用技術乾貨！教你用機器學習提高日常安全運維工作中的效率
2019-08-21
機器學習運維
從科研角度談“如何實現基於機器學習的智慧運維”
2017-12-28
機器學習運維
資料庫運維管理規範
2021-03-29
資料庫運維
Docker 運維高階應用管理
2020-12-11
Docker運維
Liunx運維(九)-Liunx程式管理命令
2021-01-03
運維

機器學習在 IT 運維管理中的必要性！

相關文章