浪潮網路釋出基於RoCE的無損乙太網解決方案

全球TMT發表於2022-04-26

北京 2022年4月26日 /美通社/ -- 人工智慧正持續為產業賦能,推動智慧農業、智慧製造、智慧交通、智慧零售等行業發展,而算網融合也將成為實現產業智慧服務的基礎底座。近日,浪潮網路釋出基於RoCE的無損乙太網解決方案,該方案以浪潮高效能資料中心交換機組為核心,滿足在AI叢集、分散式儲存、HPC叢集、資料中心的網路要求,助力實現算力的無縫協同,釋放資料潛能,為產業發展注入創新動能。

隨著智算中心的發展演進,資料量呈指數級增長,資料流量對於算力和網路提出了更高要求。傳統的資料中心服務以事件為基礎,計算結果通常是確定的,單個事件和相應的網路通訊之間幾乎沒有相關性或依賴性。而智算是迭代收斂最佳化的過程,資料集和演算法之間存在高度的空間相關性,通訊流之間具有強時間相關性,因此需要具備快速、高效和無損的資料中心網路來承載發展需求。

以往以HPC(高效能運算)為代表的場景應用多采用Infiniband技術組建高頻寬、低延遲的網路。但是隨著RoCE技術的應用發展,使乙太網在頻寬、延遲方面的表現日益趨同,在價效比和發展前景上也更具優勢。浪潮網路緊跟市場發展需求,以支援RoCE技術的資料中心乙太網交換機為核心,推出了典型的無損乙太網解決方案,其具備如下優勢:

  • 計算、儲存、網路、 AIStation無縫融合

透過提供統一品牌的計算、儲存、網路和人工智慧開發平臺整體解決方案,浪潮網路可以支援PFC、ECN等網路流控技術,以構建端到端、無損、低延時的RDMA(遠端直接記憶體訪問)承載網路。而交換機完美的快取優勢,可平滑吸收突發流量,有效應對TCP incast。

此外,方案具備智慧快取管理技術(近似公平丟棄、動態報文優先順序),可保護短報文的作業管理流量,確保AI叢集的執行效率。並支援Telemetry技術,可以提供實時網路資料和裝置狀態的視覺化管理。同時支援RoCE-SAN業務域,RoCE網路靈活接入,AI叢集主機與交換機可以同時實現單歸、雙歸連線。浪潮AIStation可以提供統一的主流深度學習框架(Tensorflow、Pytorch、Caffe、Mxnet、PaddlePaddle),開發訓練平臺以及計算資源(CPU、GPU、記憶體、儲存)管理平臺。

  • 故障主動發現、自動倒換

RoCE-SAN網路與儲存業務協同、故障快速感知,交換機快速檢測到故障狀態,並通知給相關業務域內訂閱通知訊息的伺服器,以便業務快速切換到冗餘路徑,降低對業務的影響。針對大型無損乙太網環境下PFC死鎖的問題,可以提供晶片級防PFC死鎖機制,實現自動檢測PFC死鎖及恢復。

  • 儲存即插即用

RoCE-SAN網路能夠自動發現裝置伺服器與儲存裝置的接入,並通知伺服器自動建立與儲存裝置的連線關係。

目前,浪潮網路基於RoCE的無損乙太網解決方案已在南京智慧計算中心等專案中得以應用,無損乙太網解決方案可充分發揮浪潮整體解決方案能力的優勢,滿足通用計算叢集、GPU加速叢集、異構計算叢集、分散式儲存叢集、全快閃記憶體儲存叢集等場景網路的高速、低延遲連線需求。未來,浪潮網路將繼續秉承以客戶為中心的發展理念,攜手合作夥伴打造更多結合行業場景的網路優秀實踐,為加速企業數字化轉型做出貢獻。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70004007/viewspace-2888920/,如需轉載,請註明出處,否則將追究法律責任。

相關文章