浪潮資訊物理基礎設施管理平臺 解決大型資料中心伺服器運維難題
北京 2022年4月27日 /美通社/ -- 隨著網際網路、5G、IoT等飛速發展,數字化、智慧化的建設對算力提出更高的要求,資料中心向著規模化、集約化、綠色化不斷演進,根據ResearchAndMarkets 《全球資料中心託管服務市場機遇》報告顯示,超大規模資料中心預計將從2019年的509個增長到2025年的890個,這將改變資料中心建設和使用的方式,資料中心規模不斷擴大,大型資料中心伺服器數量已經達到了10萬以上的量級,這意味著對運維的難度、人力、成本、專業性都提出了更高的要求,企業資料中心的運維壓力面臨著前所未有的挑戰,打破傳統運維方式,打造"監、管、控、防"智慧化的運維是解決問題的關鍵。
什麼是智慧運維?
首先, 要了解資料中心運維的發展歷程,它主要包含三個階段:人肉運維、自動化運維和智慧運維。
所謂人肉運維就是指 -- 在早期,大部分資料中心的運維工作是由運維工程師手工完成。伺服器執行狀態,全靠運維工程師每日肉眼檢視,進行問題定位與解決,每位工程師可以運維的上限約為400臺裝置。這種低效的運維方式,在資料中心伺服器增多和人力成本逐漸增高的時代,是難以維繼的。
所以自動化運維便應運而生,由運維工程師根據運維經驗編寫指令碼,進行批次裝置巡檢,後期發展成基於任務的裝置巡檢,這便是自動化運維的早期方式。這大大提升了發現異常裝置的效率,降低了運維成本。但是,面對故障根因、故障預測、效能趨勢和控制決策,自動化運維卻力不從心。
根據Gartner釋出的《2021年中國ICT技術成熟度曲線報告》顯示,AIOps市場將持續增長並影響整個IT運營管理市場,報告預計未來2-5年內AIOps將進入成熟期並會幫助企業大幅節約成本。從伺服器運維的角度來分析伺服器智慧運維,目標就是透過對帶外資訊(配置資訊、狀態資訊、效能資訊、日誌等)和帶內資訊(配置引數、效能資訊、日誌資訊)進行採集,利用機器學習的方式來解決上述問題,提高系統預警能力和穩定性,降低運維成本,提高運維效率。
浪潮資訊打造智慧化的物理基礎設施管理平臺( ISPIM )
浪潮資訊物理基礎設施管理平臺ISPIM,透過對資料中心IT裝置的7*24h納管監控,實現在異常檢測、故障診斷、故障預測、故障自愈、效能預測等多維度的智慧化運維。
- 異常檢測
伺服器運維中,最根本的是對於異常的檢測,常見的是對狀態指標、效能指標和日誌資料三大資料的檢測。
狀態指標:當伺服器的狀態出現異常時,浪潮資訊ISPIM管理軟體透過主/被動方式對伺服器的異常進行聚合,防止重複告警和誤報,同時對同時刻多告警進行根因定位,防止告警風暴,產生告警麻痺。
效能指標:在效能指標檢測方面,傳統手段是設定閾值,但常常因為某一時刻產生噪點資料而發生誤報,透過重複次數,閾值抖動範圍和自學習資料密度分佈等方案,便能夠解決噪點資料產生的99%的告警誤報;但面對週期性變化的資料卻無法進行動態調整,也會產生誤報的情況,大大降低告警的準確性。浪潮資訊ISPIM管理軟體透過AI最佳化,針對效能資料進行時域、頻域、能量等變化進行動態分析,採用LSTM和隨機森林兩種方案進行預測,告警準確性達到98%。
日誌資料:日誌一般是半結構化的資料,根據日誌級別產生告警,準確性不夠並且只能檢測到已知和確定模式的異常。浪潮資訊ISPIM管理軟體擁有4000+運維專家資源庫,幫助實現伺服器故障快速診斷,同時在日誌智慧故障診斷方面,會將採集的日誌進行重新編碼,不斷加深對深度學習、LSTM等演算法的研究、實踐應用,實現從多個維度對伺服器異常進行分析,異常檢測準確率高達99%。
- 故障診斷
為進一步提高運維效率,浪潮資訊ISPIM管理軟體除了對日誌的故障診斷之外,還會對系統當機後的資料進行深入的剖析,便於問題快速定位,提高效率。
透過對採集的海量資料進行分析, 浪潮發現伺服器的當機通常是發生了CPU MCE(Machine Check Exception)故障,MCE來源一般來說有兩種,一種是CPU本身故障,一種是來自CPU外部的部件。浪潮資訊ISPIM管理軟體透過帶外收集伺服器CPU暫存器資料,基於MCA(Machine Check Architecture)技術架構,透過定位CPU觸發源、分析MC Bank、解析CSR、MSR暫存器,實現故障原因的確認以及故障部件的精準定位,並根據浪潮資訊專家經驗庫對故障問題給出專業的解決方案,從而提升運維效率。
- 故障預測
據統計顯示,在資料中心中由記憶體、硬碟造成的故障佔比超過50%以上,其主要原因在於硬碟、記憶體保有量較大,生命週期相對較短,使用率較高等。當記憶體或硬碟產生故障時,極容易發生嚴重當機事故。
對於記憶體而言,記憶體產生的CE(可糾正錯誤),可以透過ECC(Error Correcting Code)機制進行糾正,但是頻繁的CE往往會產生UCE(Unchecked Error),一旦產生UCE,往往會導致系統當機。因此,預測記憶體故障即可轉化為預測UCE,浪潮資訊ISPIM管理軟體對記憶體CE,透過多個維度統計分析,從CE總頻率、記憶體固定實體地址CE頻率閾值、固定Cell CE頻率閾值、CE在Column分佈範圍及頻率閾值等維度統計,獲取UCE與CE關聯關係,從而預測UCE。
而對於硬碟,在資料中心中大多儲存陣列會採用一些冗餘機制,但是這隻能保證有限硬碟失效的場景,一旦故障盤數量超過RAID冗餘的極限之後,很可能造成系統當機或者資料丟失的風險。浪潮資訊ISPIM管理軟體透過對SMART(Self-Monitoring Analysis and Reporting Technology)標準進行分析,獲取硬碟故障預測的關鍵資料特徵,基於模型演算法進行訓練,最佳化模型演算法,輸出為推理演算法模型,透過SMART指標及硬碟執行日誌,預測風險盤。同時當硬碟預測達到換盤指標時,可支援換盤操作。
透過這些技術最佳化,浪潮資訊ISPIM管理軟體可以實現對記憶體和硬碟的故障預測,大大提高系統穩定性。
- 故障自愈
浪潮資訊ISPIM管理軟體在針對故障自愈方面,可以支援記憶體故障自動隔離,在作業系統層面,結合MCE(Machine Check Exception)日誌資料資訊,基於CE故障資訊,透過虛擬記憶體故障Page診斷演算法,確定記憶體故障Page,並在作業系統核心執行Page Offline,透過虛擬記憶體技術,隔離對故障記憶體區域的訪問,實現記憶體故障隔離。在實體記憶體層面,基於CE故障資訊,透過實體記憶體故障診斷演算法,利用SPPR(Soft Post Package Repair)、HPPR(Hard Post Package Repair)對實體記憶體故障Row進行隔離,在技術上實現對故障記憶體的永久性隔離,提高作業系統的穩定性和可靠性,從而保障業務的穩定可靠執行。
- 效能預測
效能預測是指對伺服器的效能資料,經過ARIMA、指數平滑、LSTM、Prophet等智慧演算法,能夠感知系統在未來幾個小時、幾天或者一年的資料的走勢、增長量或者週期性變化等。浪潮資訊ISPIM管理軟體憑藉自研效能分析核心元件,可支撐上萬臺伺服器同時進行秒級效能資料的監控與告警,幫助運維人員實時掌握裝置的效能狀況,實現對磁碟壽命、容量預測,準確率達到99%。
浪潮資訊物理基礎設施管理平臺ISPIM(Inspur Physical Infrastructure Manager),具備資源管理、故障監控、效能監控、能耗管理、自動部署、報表統計、網路拓撲和3D檢視等功能,可同時對數萬臺不同品牌伺服器、儲存、網路裝置等裝置進行統一監控、運維、告警管理,運維效率提升2倍,基於浪潮資訊故障專家庫的大資料規則故障診斷功能,可將故障診斷準確率提升到93%,並且可在快速處理故障的同時極大程度降低資料洩露風險,幫助使用者打造無人值守資料中心,提高運維效率並降低運維成本,保障資料中心安全、可靠、穩定的執行。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70004007/viewspace-2889082/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 全程無憂運維服務,浪潮資訊全新ISPIM平臺成資料中心360度管家運維
- 圖資料庫驅動的基礎設施運維實操資料庫運維
- [ 智慧運維服務平臺 ]PIGOSS TOC 多資料中心多監控工具的運維解決方案運維Go
- 資料庫運維的那些難題,深信服DMP給解決了資料庫運維
- 深度解析大快DKadoop大資料運維管理平臺功能OOP大資料運維
- 京東資料庫智慧運維平臺建設之路資料庫運維
- 資料庫已經不是最難國產化的IT基礎設施了資料庫
- TDS:標籤平臺+API平臺+資料共享平臺,助力資料運營平臺建設API
- 《關鍵資訊基礎設施安全保護要求》解讀(上篇)
- 資料庫異常難定位?GaussDB(DWS)運維神器TopSQL來解決資料庫運維SQL
- 不斷追逐 資料港爭做國內資料中心基礎設施排頭兵
- 資料中心管理有三大難題
- 資料中心基礎設施高可用提升研究與實踐
- 高盛商業銀行部與領先資料基礎設施管理團隊合作,承諾提供高達5億美元資金,組建資料中心平臺Global Compute
- 讀資料質量管理:資料可靠性與資料質量問題解決之道10資料平臺
- 某行日誌平臺 Elasticsearch 運維基礎篇Elasticsearch運維
- 基礎資料平臺的前世今生
- NQI質量基礎設施“一站式”服務平臺建設解決方案
- 多伺服器運維管理 集中監控與管理平臺伺服器運維
- 數字經濟需解決供給難題,華為資料基礎設施展現新思路
- 網易資料基礎平臺建設經驗談
- 蔣鴻翔:網易資料基礎平臺建設
- 便捷、高效、智慧—從運維視角看星環科技大資料基礎平臺TDH運維大資料
- 大型資料中心智慧運維發展趨勢 管理與研發一體化運維
- 質量基礎設施NQI一站式公共服務平臺建設解決方案
- TDengine 簽約海博思創,助力儲能運維平臺資料管理運維
- 浪潮推出以基層治理數字化平臺為基礎的整體解決方案
- 正式實施!《關鍵資訊基礎設施安全保護條例》重點解讀
- 大快搜尋大資料基礎管理平臺功能深度解析大資料
- 《大型資料庫技術》MySQL管理維護資料庫MySql
- 基於Hadoop的大資料平臺實施——整體架構設計Hadoop大資料架構
- 智慧黨建系統開發,黨員資訊管理平臺建設解決方案
- NQI質量基礎設施一站式服務平臺開發解決方案
- NQI質量基礎設施“一站式”服務平臺開發解決方案
- 頭位資訊平臺為何被視為運營解決方案?
- 質量基礎設施(NQI)“一站式”線上服務平臺建設解決方案
- 公益直播課|關鍵資訊基礎設施安全保護方案解讀
- 以資料為中心的資料安全基礎能力建設探索