浪潮儲存基於智慧運維技術,加速儲存自治

全球TMT發表於2021-11-14

隨著新基建逐步發展落地,現代資料中心迅速崛起,資料量呈指數級增長,同時各種新儲存介質和技術的應用,使得儲存系統變得越來越複雜。在運維管理上,完全依賴人工已經不能滿足需求,企業將更多依靠人工智慧進行自動化運維,Gartner認為AIOps的廣泛應用將讓IT基礎設施管理變得更主動、更具預測性,減少管理和停機成本。

儲存智慧管理就是通過AI技術實現儲存自治,即自我管理、自我修復、自我調優,提高儲存系統的效能、穩定性和易用性,降低儲存使用的複雜性,簡化運維,使儲存裝置永遠保持在最優執行狀態,加速資料線上。

近幾年,浪潮一直在致力於該方向研發和探索新特性,目前推出了智慧管理軟體InView, 包含了4個預測和2個自動化智慧運維功能特性。四個預測分別為包括提前兩週識別風險磁碟,降低資料丟失風險;智慧預測效能增長需求,預知效能瓶頸;智慧預測容量增長需求,給使用者提供科學、準確的擴容建議;預測SSD使用壽命,精準到天。兩個自動化分別為效能瓶頸分析,通過端到端診斷分析,快速發現儲存效能瓶頸狀態,並能定位根因;效能自動調優,結合應用場景和使用者IO模型,自動挖掘最優的客戶端配置和儲存端配置,並主動推薦配置給需要的儲存系統和使用者。

為什麼需要效能自動調優?

目前的儲存系統中具有大量的可調引數,以浪潮分散式儲存系統AS13000為例,系統軟硬元件多,內、外部引數多達兩千多個,且90%的引數為數值型和布林型,引數的可調範圍非常大,修改這些引數往往會對系統效能產生不同的影響。通常預設的引數配置由供應商提供,這些引數值的組合一般都不是最優的引數集合。研究表明,即使調整一小部分的引數值,也可以將系統的能耗和效能效率提高數倍以上。

傳統的引數調整是由系統管理員依據自身的專業知識和經驗完成的,由於儲存系統的複雜性不斷提升,手動調參將較難適應大規模的儲存系統,並且人工調參具有無法全天候的監控以及高額的人力成本等問題。如何結合具體應用場景,在儲存預設配置和效能資料基礎上,自動挖掘最優的儲存配置,並主動推薦配置給需要的儲存系統,對儲存系統的效能優化具有重要意義。

浪潮分散式儲存引數分佈

浪潮儲存:基於InView效能自動調優技術,將頻寬提升41%、時延降低29%

在自動調優中,強化學習是一個非常好的解決方案,強化學習(RL)是機器學習的一個分支,涉及代理(agent)如何在當前環境下采取行動(action)以最大程度地獲得回報(reward)。與監督學習和無監督學習不同,強化學習通過試錯機制,與環境進行互動並獲得獎勵,從獎勵中進行學習。

強化學習工作原理

關鍵演算法採用的是2016年穀歌DeepMind提出的DDPG演算法,演算法包含Actor網路和Critic網路,其中Actor網路可根據環境當前執行狀態輸出連續動作,Critic網路可對當前環境執行狀態和實施的動作進行評估打分,兩者相結合,適用於高維連續動作場景。這是首次使用強化學習方法學習和推薦儲存系統引數。

效能自動調優整體架構

浪潮智慧管理軟體InView強化學習進行儲存系統引數調優整體包含三個模組,分別是使用者的應用、分散式儲存系統AS13000以及調優模組。其中,引數推薦引擎可根據浪潮分散式儲存AS13000的當前狀態生成最佳配置,負責將最佳配置動態下發給AS13000,AS13000負責響應客戶端的IO讀寫請求,效能指標採集器負責採集AS13000在新配置下的狀態資訊並計算在新配置下的效能提升效果,深度學習引擎根據AS13000的反饋迭代更新Actor和Critic網路。該過程迭代直到模型收斂,最終將找到最合適的引數設定。

浪潮InView效能自動調優系統具備端到端引數自動調整、提升網路頻寬同時降低網路時延、引數的調整不影響叢集正常執行三大特點,具體實驗效果如下:橙色框中的前360步,模型隨機探索學習,紅色框為360步之後,模型自動推薦引數,相比預設配置(黑色框中的點),平均頻寬提升41%,時延降低29%,調優效果與效能專項組專家經驗相當。

自動調優與預設配置效果對比

隨著雲、大資料、人工智慧、區塊鏈、5G等新技術與實體經濟將加速融合,中國儲存市場未來5年複合增長率將達到8%,其中全快閃記憶體儲和分散式儲存將持續高速增長。浪潮儲存基於“雲存智用 運籌新資料”的理念,將在包括分散式和集中式儲存的平臺及智慧管理軟體領域持續加大投入與創新,,釋放資料價值加速企業數字化轉型。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31545803/viewspace-2841876/,如需轉載,請註明出處,否則將追究法律責任。

相關文章