拯救運維人!智慧運維如何實現1+1>2

dobigdata發表於2021-01-21

如果要評選世界上壓力最大的工作,那麼運維管理估計會大機率的入圍。

人們形容運維人的工作日常:不是在解決問題就是在解決問題的路上。以至於運維人自己也感嘆乾的工作是操著賣白fen的心、賺著賣白菜的錢……

運維工作有多難?來透過一個真實案例直觀感受一下。

某大型汽車集團,在全球汽車行業排名前列,不僅部署了Tivoli、SAP、EP、SDAP等眾多軟體,還應用了Zabbix等諸多開源軟體;隨著雲端計算的普及,該集團還將部分業務部署在公有云之中。資料量龐大且型別豐富,複雜的多雲環境,繁多的監控運維工具,超級多的無效運維事件,讓該集團運維工作挑戰巨大,運維人員日常工作中如坐針氈,“惶惶不可終日”。

類似情況在其他企業比比皆是。同為打工人,運維人不該被這樣對待。如何改變這種局面?近年來,智慧運維異軍突起,成為解救企業和運維人員的及時雨。

智慧運維,即透過結合大資料和機器學習等相關技術,以資料採集與分析各種資料支援所有主要的IT運營功能,將徹底改變過去傳統運維的種種詬病,被認為既是解放運維人員的救星,也可為眾多企業的數字化轉型保駕護航。

運維為何就這麼難

在當下,很多企業經過多年數字化建設,透過整合監控與告警、與ITSM整合、自動化運維,基本建成了包含“監控、管理、控制”三大維度的運維體系。但這種典型的傳統運維體系卻是大而不強、全而不準。

究其原因,它是時間的產物,伴隨著企業數字化建設的程式而逐漸搭建起的,缺乏頂層設計和全域性視角,更像是眾多工具與產品的堆砌。由於底層資料並未徹底打通,導致工具與工具、方案與方案彼此之間並不存在強邏輯聯絡,依然是以“各自為政”為主。

以監控維度為例,在運維界有句老話:監控先行。整個集中監控體系的構建,從最早的網路管理,到後續的資料庫/資料庫管理、儲存/伺服器管理,再到之後的虛擬化/雲管理,才逐漸形成集中監控體系,透過不同的監控工具來實現這些平臺的實時告警檢視和平臺最佳化建議。但現實中,這種監控體系卻無法覆蓋與打通鏈路監控(Traces)、指標監控(Metrics)和日誌監控(Logs)全部運維資料,不能構建起面向業務自上而下的監控全覆蓋。

拯救運維人!智慧運維如何實現1+1>2

監控體系自身尚且如此,監控與管理、控制之間就更缺乏全鏈路的聯動。這些情況直接導致了當前很多企業在運維上面臨著運維資料範圍不足、告警氾濫、根因分析定位難、缺少全鏈路聯動分析等情況。

首先,企業數字化轉型的程式中,面臨著IT環境日趨複雜、應用大量增加、裝置種類繁多等情況。Gartner就預測裝置和應用程式所產生的資料量正以每年2-3倍的速度增長,且資料型別多樣。另一方面,業務和環境的複雜性也讓運維物件、資料與指標覆蓋不足,運維資料範圍不足造成故障發生前缺少健康度洞察,難以提前預測故障事件。

其次,大量裝置與應用,各種各樣的監控工具,讓監控物件條目過多、告警數量多造成當故障事件發生時,告警氾濫,誤報、漏報情況嚴重,難以實現精準告警。更加致命的是,故障事件發生之後,基於告警的機制很難有效定位問題,缺少呼叫鏈資訊,難以定位到服務和請求類的根本原因。

另外,業務依賴關係複雜也造成了整個運維缺少全域性運維檢視,跨多系統的運維無法聯動,單業務系統內部的服務呼叫請求難以分析。

“傳統運維是建立在CMDB的基礎之上,CMDB自身的限制性、時效性、可維護性、複雜性等決定了其無法給運維人員呈現不同運維工具之間的監控關係。”愛數運維技術專家透露道。

因此,智慧運維開始呼之欲出,也即現在流行的AIOps。Gartner認為,AIOps將跨平臺的資料鏈進行打通與整合,透過機器學習和大資料等技術,讓運維獲得主動、個性化和動態的洞察力,從而支撐起所有IT運營的功能。Gartner並預測到2022年,有40%的大型企業將會進行部署AIOps平臺。

智慧運維雖好,卻也有一個很現實的問題,即全球沒有一家公司的產品可以覆蓋全部資料範圍來幫助使用者構建智慧運維中心。藉助生態的力量,廠商與廠商在產品、技術以及方案層面的打通與聯動就成為當前智慧運維最重要的發展方向。例如,愛數與聽雲在今年的戰略合作就開啟了智慧運維方案打造的新思路。

如何讓智慧運維1+1>2

愛數與聽雲在智慧運維領域開啟了新模式。今年1月份,雙方攜手正式推出了智慧運維整合方案,旨在幫助客戶全面管理、深度洞察海量、多源、異構的機器資料。

具體來看,中國使用者對於這種智慧運維整合方案需求更加迫切。中國企業的業務規模性和複雜性在全球無出其右,帶來了對於日益主動的IT運營、更加細化的成本最佳化目標和質量期望、更加快速的故障響應與處理、更加穩定的業務持續性等運維需求。

在雙方的整合方案中,愛數聚焦在智慧運維領域多年,擁有深厚的技術積累和豐富的實踐經驗,其AnyRobot是一款開放、高效、經濟的機器資料分析平臺;而聽雲是國內唯一一家連續多年入選Gartner APM魔力象限的廠商,主要聚焦在應用效能管理和使用者體驗最佳化。

愛數AnyRobot主要聚焦指標監控(Metrics)和日誌監控(Logs)資料,而聽雲智慧監控產品主要聚焦鏈路監控(Traces)、指標監控(Metrics)資料,雙方聯合方案則實現了全方位接入企業各維度機器資料,可以全方位提高客戶運維效率,驅動組織業務運營創新。

拯救運維人!智慧運維如何實現1+1>2

聽雲與愛數簽署戰略合作

例如,該智慧運維整體方案可以實現日誌溯源與智慧分析,透過運維資料間開放整合,AnyRobot實時採集業務應用及其底層基礎設施的日誌資料,與聽雲APM應用效能監控資料進行開放共享,對使用者業務系統的機器資料進行統一管理。在運維故障分析過程中,可直接追蹤事件發生過程,一鍵定位故障根源,確保業務運營高效執行,並提供端到端的完整應用效能最佳化方案,提升使用者體驗。

另外,該智慧運維整體方案還可以對配置的日誌告警資料和效能監控資料進行綜合分析,避免重複告警;並增加智慧告警演算法,根據告警歷史資料進行智慧檢測,從而提高告警準確性,縮短故障發現時間、減少誤報漏報、提升故障修復效率。

與此同時,除了監控之外,愛數與聽雲產品的開放性,也保證瞭解決方案可以跟ITSM和自動化運維平臺之間進行打通與聯動。

某種程度來看,愛數與聽雲走到一起,就是在幫助使用者打透過去傳統運維的種種“壁壘”,讓運維資料、工具、平臺可以實現打通與聯通,讓運維真正成為一盤棋。與此同時,雙方合作也揭示運維平臺未來的發展趨勢。

運維平臺趨勢:開放、高效、經濟

隨著大部分企業數字化轉型的不斷深入,業務數字化程度不斷提升,運維所面臨的複雜性、多樣性將會只增不減。由於運維所涉及的相關領域與內容實在是太過於廣泛,未來也不能一家公司就可以徹底搞定,所以在業務複雜性不斷提升的趨勢下,運維平臺走向開放、高效與經濟乃是大勢所趨。

以愛數AnyRobot機器資料分析平臺為例,其產品從設計開始就聚焦了開放、高效、經濟三個核心特徵。

在開放性方面,愛數AnyRobot採用了創新Hub架構,實現多源異構資料、多機器資料平臺的統一納管,可以讓使用者具備更多機器資料接入的能力,同時機器資料接入之後,實現統一的機器資料分析平臺和通用的資料消費能力。

拯救運維人!智慧運維如何實現1+1>2

開放性給運維帶來何種好處?舉個例子,金融、電信、能源、網際網路等行業的眾多使用者,在底層資料分析平臺上採用了開源資料分析平臺ELK或商業資料分析平臺Splunk,並且執行多年,與各個業務捆綁緊密。隨著技術的發展,安全審計等的要求,僅僅依靠ELK或者Splunk已不能完全符合使用者的真實需求,愛數AnyRobot的Hub架構讓與ELK、Splunk等共同服務使用者的機器資料的採集、儲存和分析。

此外,在高效層面,愛數AnyRobot還採用了小程式架構,讓使用者更好地獲取應用分析App的能力;在經濟層面,愛數AnyRobot採用了存算分離架構,實現計算與儲存分離,同時計算可以實現完全的彈性擴充套件,最大限度的為使用者節省各種資源。

從長遠來看,開放、高效、經濟的運維平臺也是最符合企業使用者對於運維的要求。未來,隨著企業數字化轉型的深入,以及像愛數、聽雲這些中國智慧運維廠商利用生態不斷完善聯合解決方案,中國使用者有望得到更加出色的智慧運維產品與服務。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69965091/viewspace-2751916/,如需轉載,請註明出處,否則將追究法律責任。

相關文章