智慧運維(AIOps)時代開啟,一文幫你快速瞭解其定義與發展現狀

博文視點發表於2018-08-15

得益於IT外包服務的發達,現在的運維已經不包括搬機器上架、接網線、安裝作業系統等基礎工作,運維人員一般會從一臺已安裝好指定版本的作業系統、分配好IP地址和賬號的伺服器入手,工作範圍大致包括:伺服器管理(作業系統層面,比如重啟、下線)、軟體包管理、程式碼上下線、日誌管理和分析、監控(區分系統、業務)和告警、流量管理(分發、轉移、降級、限流等),以及一些日常的優化、故障排查等。

隨著業務的發展、伺服器規模的擴大,才及雲化(公有云和混合雲)、虛擬化的逐步落實,運維工作就擴充套件到了容量管理、彈性(自動化)擴縮容、安全管理,以及(引入各種容器、開源框架帶來的複雜度提高而導致的)故障分析和定位等範圍。

聽上去每一類工作都不簡單。不過,好在這些領域都有成熟的解決方案、開源軟體和系統,運維工作的重點就是如何應用好這些工具來解決問題。

傳統的運維工作經過不斷髮展(伺服器規模的不斷擴大),大致經歷了人工、工具和自動化、平臺化和智慧運維(AIOps)幾個階段。這裡的AIOps不是指Artificial Intelligence for IT Operations,而是指Algorithmic IT Operations(基於Gartner的定義標準)。

基於演算法的IT運維,能利用資料和演算法提高運維的自動化程度和效率,比如將其用於告警收斂和合並、Root分析、關聯分析、容量評估、自動擴縮容等運維工作中。

在Monitoring(監控)、Service Desk(服務檯)、Automation(自動化)之上,利用大資料和機器學習持續優化,用機器智慧擴充套件人類的能力極限,這就是智慧運維的實質含義。

智慧運維具體的落地方式,各團隊也都在摸索中,較早見效的是在異常檢測、故障分析和定位(有賴於業務系統標準化的推進)等方面的應用。智慧運維平臺邏輯架構如圖所示。

智慧運維(AIOps)時代開啟,一文幫你快速瞭解其定義與發展現狀

智慧運維平臺邏輯架構圖

智慧運維決不是一個跳躍發展的過程,而是一個長期演進的系統,其根基還是運維自動化、監控、資料收集、分析和處理等具體的工程。人們很容易忽略智慧運維在工程上的投入,認為只要有演算法就可以了,其實工程能力和演算法能力在這裡同樣重要。

智慧運維需要解決的問題有:海量資料儲存、分析、處理,多維度,多資料來源,資訊過載,複雜業務模型下的故障定位。這些難題是否會隨著智慧運維的深入應用而得到一定程度的解決呢?我們會在下一篇文章中逐步展開這些問題,並提供一些解決方案。


本文選自《智慧運維:從0搭建大規模分散式AIOps系統》,作者彭冬、朱偉、劉俊等,電子工業出版社2018年7月出版。

本書結合大企業的智慧運維實踐,全面完整地介紹智慧運維的技術體系,讓讀者更加了解運維技術的現狀和發展。同時,幫助運維工程師在一定程度上了解機器學習的常見演算法模型,以及如何將它們應用到運維工作中。

圖書詳情:https://item.jd.com/12403162.html

智慧運維(AIOps)時代開啟,一文幫你快速瞭解其定義與發展現狀


相關文章