資料中心運維管理:從人工到智慧需要走幾步?

Linksla發表於2023-11-23

一切的變化來自於資料中心規模、複雜度、裝置多樣性的挑戰,將運維平臺的重要性推向歷史高點。

此外,基於業務連續性方面的考慮,分散式資料中心成為越來越多客戶的選擇。

一、資料中心面臨的挑戰

運維管理分散,缺乏統一的管理

IT 建設“各自為政”,缺乏統一的管理規劃,伺服器、儲存、網路等 IT 資源與虛擬化平臺等資訊分散,系統無法集中統一管理,無法實現全棧軟硬體集中管理和自動維護,運維管理成本高。

告警管理效率低

管理物件和監控指標覆蓋不全,告警資訊無法統一管理,重要告警易遺漏,告警處理效率低下,系統風險與日俱增。

缺乏全域性檢視

各裝置管理介面分散,缺乏全景檢視,難以挖掘最佳化點,無法有效支撐資料中心運營分析。

故障定位困難

隨著資料中心和業務規模擴大,網路複雜度不斷增加,一旦出現業務故障,端到端拓撲梳理耗時長,故障定位困難,影響業務系統可用性。

二、資料中心全棧運維功能需求

1、全棧監控

資料中心軟硬監控一體化,實現故障快速定界定位。由於不同組織共用底層基礎設施, 支援多租實現資源隔離。

2、日常運維

視覺化大屏、報表的訴求,日常運維、上層彙報展示、參觀展示均為主要使用場景。

日常運維 TOP 需求包括:虛擬機器間流量監控、報表大屏、流程平臺對接、自動根因分析、故障快速恢復、資源動態調整。

統一監管

資料中心 IT 資源種類繁多,從伺服器、集中式儲存、分散式儲存、 IP 交換機、交換機等硬體基礎設施,到虛擬化、容器等資源服務,再到 SDN 等高階特性,資料中心運維平臺需具備軟硬體全棧的統一納管能力,實現全棧資源的統一納管、統一門戶、統一運維、統一運營。

運維可視

資料中心的各種運維資料儲存在不同的 IT 系統中,為滿足日常運維的一屏統攬、客戶或上級的參觀展示以及資料中心的運營分析需求,需要將分散的運維資料集中展示,釋放資料價值。資料中心運維平臺需支援對裝置效能指標、告警事件、資產配置等資料的融合關聯,透過大屏或報表進行全方位的展示。大屏及報表需預製多種模板,方便運維人員的一鍵式匯出;同時還需支援個性化定製,幫助運維人員隨需掌握資料中心狀態資訊。

智慧運維

對於日常運維,傳統的運維方式多為被動等待問題出現後定位解決,而結合智慧容量預測、智慧風險檢測等功能,可以提前發現問題風險並將風險消減於萌芽之中。對於故障定位,傳統的運維方式需要捲入多裝置的運維人員,人工梳理排查網路拓撲,在當下越發龐大和複雜的資料中心中顯得效率尤為低下,透過運維平臺提供的智慧關聯分析和智慧拓撲梳理,可以快速且自動化地定位到問題關鍵點,故障定位時間縮短到分鐘級。

資源高效發放

資料中心基礎設施的計算、儲存、網路等資源被不同的部門或使用者使用,面對不同使用者發起的資源申請需求,運維人員需頻繁按照需求為使用者發放資源,此時如若運維平臺的資源發放過程效率低下、依賴於大量手工步驟,那麼對於運維人員的日常工作必然造成困擾。以一個典型的 IOE 架構下的虛擬機器發放過程為例,虛擬機器的發放需要分別接入儲存、網路、虛擬化平臺的管理介面執行十數個步驟的手工操作,步驟繁雜且容易出錯。

因此,資料中心運維平臺需要支援資源的高效發放,從人工執行轉變為自動化執行,從十數個步驟轉變為一鍵式自動編排,從而滿足日常的業務發放需要。

結合上述關鍵功能需求,面向全場景的資料中心全棧管理平臺需具備融合、智慧、開放三大能力:

融合

資料中心全棧軟硬體管理:統一監控管理分支 - 中心多 DC 內的伺服器、交換機、儲存裝置、虛擬化等資源, IT 人員透過一個“介面”完成日常運維管理工作,統一體驗,提升效率。

統一告警:軟硬體告警統一實時監控與通知,幫助運維人員及時發現問題。

智慧

智慧風險預警:透過 AI 實現智慧風險預測,故障提前預知,問題一鍵閉環。

智慧效能關聯分析:對虛擬機器、虛擬網路卡、虛擬磁碟、資料儲存等的效能問題智慧關聯分析,快速定界效能瓶頸。

智慧拓撲分析:智慧拓撲梳理,圖形化輔助根因分析,問題定界定位小時級縮短到分鐘級。

開放

開放生態:南北向廣泛相容,北向支援對接三方雲管,南向支援多廠商裝置管理、異構資源池納管。

自定義報表:掌控全網資產、資源、業務執行狀況,幫助運維決策、定期彙報。

自定義大屏:預置大屏和自定義能力滿足日常參觀、重點業務監控保障等訴求。

LinkSLA智慧運維管家--更好的運維幫手
統一的、全棧的、智慧的資料中心運維管理體系已成為當今使用者資料中心運維的普遍需求。LinkSLA智慧運維管家在全棧統一管理的基礎上,結合業務高效發放以及 AI 技術賦予的智慧故障定位、提前風險預知等能力,相信資料中心運維平臺將快速從人工走向自動,最終走向全場景“自治”。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70013542/viewspace-2996900/,如需轉載,請註明出處,否則將追究法律責任。

相關文章