新基建 破局大規模資料中心智慧化監控運維管理

蔚穎willing發表於2020-05-18

新冠肺炎疫情,讓中國數字化程式按下加速鍵,中央明確提出要加快5G基建、特高壓、城際高速鐵路和城際軌道交通、大資料中心、人工智慧、工業網際網路和新能源汽車充電樁等“七大領域”新型基礎設施建設進度,資料中心首次被列入加快建設的條目。

 

疫情讓線上服務需求激增,資料成為關鍵資源,而資料中心資訊基礎設施承擔著資料收集、計算、轉化、流通的重要職責。“新基建”加速推進,網路基礎設施及網路服務需求大幅增加,資料中心作為底層基礎設施將持續增長,擴容及大規模資料中心建設必將加速。

資料中心依靠傳統運維已無法滿足海量裝置的監控及運維管理需求,而資料中心網路安全、高效執行是保障服務的重中之重。資料中心的管理涉及 網路監控、運維、日誌分析、安全管控、視覺化展示及滿足未來裝置增加及新裝置管控等需求,解決運維人員依靠人腦決策的問題。一些網路故障就是因人為誤操作導致,因此降低人工失誤,從大量繁瑣、複雜、耗時、易出錯的基礎運維工作中解放出來,是資料中心運維監控管理的目標之一。

現今,人工智慧技術日益普及,智和網管平臺基於機器學習技術與大資料分析的智慧化監控運維管理軟體,可自動發現裝置、資源及識別鏈路,監控網路裝置、伺服器、虛擬機器、中介軟體、資料庫、軟體及網路服務等,獲得海量的監控資料作為訓練資料的基礎,透過積累大量故障處理、預測規避以及巡檢運維等經驗組成智慧化運維分析的知識庫,把資料變成有價值的資訊,從而實現資料中心智慧化運維監控需求,替代人腦進行智慧決策。

智慧運維VS傳統運維

一方面,傳統IT運維是基於統計、分析、合規的層面,把資料變成了有價值的資訊;但傳統運維工具採集運維指標維度單一,IT運維人員在使用傳統運維工具進行故障診斷時,要同時從多種監控工具中得到不同維度的運維指標,然後再把這些資料在大腦裡面相互關聯與分析,再依據個人經驗判斷故障的原因。而智和網管平臺智慧監控運維繫統則不同於傳統運維工具的資料使用方式,將各類裝置的運維指標進行匯聚和加工,將裝置鏈路,效能、元件、資源、事件、告警、日誌、工單等IT資料統計分析後,以視覺化的餅狀圖、柱狀圖、折線圖、表格、顏色等多種形式的關聯展現,從而減少運維人員的故障診斷時間,避免分析過程中的人為失誤,大幅度提升了運維人員的故障診斷準確性。處理海量、高速、多樣的資料併產生高價值,智慧化的監控運維是大規模資料中心的運維管理發展方向。

另一方面,傳統運維工具通常由不同廠商提供,這就導致資料中心需要配備很多運維人員來管理不同廠商的運維產品,以保障IT業務支撐。一旦IT系統發生故障,運維工程師們需一同開會討論,共同推敲故障原因,故障處理時效性大打折扣;除此之外,隨著IT技術人員薪酬的持續攀升,IT運維成本隨之大幅增加。SugarNMS則顯著區別於傳統運維工具,它完全不需要大量的運維人員。平臺自身可以採集多維度、海量的IT裝置資料,只要有少量的熟悉SugarNMS的運維工程師即可實現中大型企業的日常IT支撐保障,將海量事件進行了聚合彙總分析,產生故障告警,有利於運維人員更加快速高效的處理現場故障。還支援將故障處理方法固化在軟體知識庫系統,隨著資訊量的不斷增加,平臺做出決策建議,軟體平臺將向更加智慧的自動化運維演進,智慧化進行故障止損、修復、規避等操作。

最重要的一點,資料中心不斷的演進,其規模複雜度、變更頻率非常大,技術更新也非常的快。傳統運維工具由於體系架構比較陳舊、採集資料總量和維度又都相對有限,無法應用當下最先進的機器學習或者人工智慧演算法來快速診斷系統故障。 SugarNMS 的監控能力,匯聚海量多維度的IT資料基礎,以機器學習演算法為支撐,應用先進的大資料分析技術,對歷史資料訓練解析,實時智慧發現、智慧識別、智慧監控、智慧展示、智慧管理以及智慧分析異常資料,並進行定位、預測、第一時間故障報警等處理,還能自定義告警和故障解決方案。具備擴充套件能力及二次開發能力,可自定義擴充套件裝置型別及其裝置資源,自定義裝置模板圖,最大可能的支援不同裝置型別,實現所有網路裝置同步監控運維的需求;也可以擴充套件功能,如監控裝置風扇、電源、溫度、電口、網路、光介面的狀態等,達到管控萬物的目標,7*24小時保障上層的業務可靠高速高效安全的運轉,提升運維服務質量和終端使用者體驗。

 

智慧監控運維架構解析

SugarNMS力求將網路資料提取、日誌資料提取、歷史資料管理、流資料管理、演算法資料提取、文字和NLP文件提取、自動化模型的發現和預測、異常檢測、故障分析等能力納入 國產安全、監控、分析、運維、安管、日誌+、開發七大功能模組  

資料中心運維人員需具備網路管理全域性掌控的能力。透過sugarnms實現自定義智慧巡檢策略,對網路的定期檢查,對裝置執行情況進行統計和報表生成,預設時段向指定的郵箱傳送巡檢報告,定期瞭解巡檢結果,把握IT網路裝置整體狀況。自動巡檢裝置策略備份,並可進行對比分析,為資料中心管理網路做出合理建議提供資料支撐。 透過視覺化監控管理,幫助運維人員直觀審視業務運營與IT運維中有效資訊,讓運維人員有更多的時間和精力專注於資料中心業務和使用者體驗的提升,讓資料中心運維真正走向智慧化運營。

作為5G、雲端計算、工業網際網路和人工智慧的底層算力基礎設施,資料中心的價值大幅凸顯。在四川、江蘇、雲南、鄭州等多個省市的地方 會議 上,圍繞“新基建”的佈局成為討論重點。資料中心被多地列為2020年的重點專案,各地計劃投資規模均達到百億級。在總規模達萬億的資金即將湧入之際, 如何 減少故障率 、智慧化的監控運維管理是規劃建設重點考慮問題。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69948630/viewspace-2692810/,如需轉載,請註明出處,否則將追究法律責任。

相關文章