現代網路成為NVIDIA“3U一體”架構的基石

陶然陶然發表於2022-04-15

  每年的GTC大會都是NVIDIA秀肌肉的時刻,這次也不例外。除了全新的CPU產品以及NVIDIA Hopper架構,NVIDIA的產品佈局更加全面,涵蓋了基礎設施的方方面面。在軟硬體加持下,NVIDIA的“以工業規模創造智慧,並將其融入真實和虛擬世界。”願景正在加速到來。

  又是一年GTC大會,那麼,NVIDIA在網路產品技術領域給我們帶來了哪些驚喜呢?

   NVIDIA Spectrum-4:不只是一個網路平臺

  我們知道,NVIDIA提出了3U一體的資料中心加速計算架構,即GPU解決平行計算的工作負載,DPU承擔加速資料移動的工作負載,CPU承擔通用計算業務應用的工作負載,但在3U一體的資料中心架構中,網路平臺在其中起到了互連互通的關鍵作用。因此,NVIDIA創新性的釋出了NVIDIA Spectrum-4新一代乙太網平臺,為大規模資料中心基礎設施提供所需的超高網路效能和強大安全性。

NVIDIA網路專家 崔巖

  據NVIDIA網路專家崔巖介紹,Spectrum-4乙太網平臺不光是一款交換機產品,它是由三大部分構成:Spectrum-4交換機,加速整個雲網路架構;ConnectX-7智慧網路卡,加速伺服器節點中網路效能介面卡;BlueField-3 DPU,可程式設計資料中心基礎架構;這三大組合部分共同搭建了端到端的400G超大規模網路平臺——Spectrum-4。

  那麼,它有哪些過人之處呢?據瞭解,作為全球首個400Gbps端到端乙太網網路平臺,NVIDIA Spectrum-4的交換吞吐量比前幾代產品高出4倍,達到51.2Tbps,能夠大幅加速大規模雲原生應用。

  在NVIDIA Spectrum-4交換機效能與創新方面,NVIDIA Spectrum-4 ASIC和SN5000交換機系列基於4N工藝,包含1000多億個電晶體以及經過簡化的收發器設計,具有領先的能效和總擁有成本。憑藉支援128個400GbE埠的51.2Tbps聚合ASIC頻寬,以及自適應路由選擇和增強擁塞控制機制,Spectrum-4最佳化了基於融合乙太網的RDMA網路架構,並顯著提升了資料中心的應用速度。

  憑藉12.8Tbp加密頻寬和這些安全功能,Spectrum-4將成為市場上優秀的、高效能的、安全的端到端乙太網網路平臺。由Spectrum交換機、BlueField DPU和ConnectX智慧網路卡組成的Spectrum平臺能夠提高AI應用、數字孿生和雲基礎架構的效能和可擴充套件性,為現代資料中心帶來極高的效率和可用性。

  如今,資料中心呈現指數級增長,應用層面、伺服器層面對網路頻寬的要求越來越高,同時還要提供更好的安全性和強大的功能。所以,為了滿足這些需求,要提供一個可以在大規模應用場景下又能提供高效能、低延時,還可以提供高階的虛擬化和模擬模擬支援的乙太網平臺,是一個必不可少的解決方案。

  崔巖表示,Spectrum-4不只是一個網路平臺,我們會將其和NVIDIA其他的平臺軟體和應用做整合,這樣可以達到最好的網路應用效果。同時,我們還有Cumulus Linux網路作業系統、SONiC網路作業系統、DOCA的開發平臺開發套件。透過DOCA可以更好的在 BlueField DPU上面做軟體開發,在大規模雲原生應用場景下加速整個資料中心,基於基礎設施的虛擬化和軟體定義、硬體加速的網路、儲存、安全來提供更多的應用和服務。

   NVIDIA OVX、H100 GPU、H100 CNX、DGX H100一個都不能少

  為了更好地推動NVIDIA Omniverse的落地,NVIDIA釋出用於驅動大規模數字孿生的NVIDIA OVX計算系統。

NVIDIA網路市場總監 孟慶

  據NVIDIA網路市場總監孟慶介紹,OVX伺服器由8個NVIDIA A40 GPU、3個NVIDIA ConnectX-6 Dx 200Gbps網路卡、1TB系統記憶體和16TB NVMe儲存組成。OVX計算系統可以從由8臺OVX伺服器組成的單叢集擴充套件到透過NVIDIA Spectrum-3交換架構連線的一個或多個OVX SuperPOD(由32臺OVX伺服器組成),來加速大規模數字孿生模擬。

  談到OVX就不得不說說H100 GPU,從技術進展來看,H100採用臺積電4N工藝、臺積電CoWoS 2.5D封裝,有800億個電晶體,搭載了HBM3視訊記憶體,可實現近5TB/s的外部互聯頻寬。與此同時,H100還是首款支援PCIe 5.0的GPU,也是首款採用HBM3標準的GPU,單個H100可支援40Tb/s的IO頻寬,實現3TB/s的視訊記憶體頻寬。

  為了加速大型AI模型,NVLink結合全新外接NVLink Switch,可將NVLink擴充套件為伺服器間的互連網路,最多連線多達256個H100 GPU,相較於上一代採用英偉達NVLink只能在DGX機器內連線8個GPU,能力擴大了32倍。

  據瞭解,NVIDIA為了將Hopper GPU的強大算力引入主流伺服器,還推出了全新的融合加速器H100 CNX。它將網路與GPU直接相連,耦合H100 GPU與英偉達ConnectX-7 400Gb/s InfiniBand和乙太網智慧網路卡,使網路資料透過DMA以50GB/s的速度直接傳輸到H100,能夠避免頻寬瓶頸,為I/O密集型應用提供更強勁的效能。

  DGX H100系統是新一代英偉達DGX POD和DGX SuperPOD超級計算機的構建模組。藉助NVLink Switch系統,擁有32個節點、256個GPU的DGX Pod,其HBM3視訊記憶體達20.5TB,視訊記憶體頻寬高達768TB/s。透過採用Quantum-2 InfiniBand連線及NVLink Switch系統,新DGX SuperPOD架構在GPU之間移動資料的頻寬高達70TB/s,比上一代高11倍。

  寫在最後,這些年來,NVIDIA GTC大會已經成為一場面向AI、HPC、科學計算、數字孿生及自動駕駛等諸多前沿領域的技術盛宴。在這場盛宴中,我們不僅看到技術突破如何改變各行各業的生產效率和工作方式,也看到英偉達圍繞計算世界的最新佈局。

  隨著新一代大規模雲技術的出現,資料中心架構有待轉型。未來,NVIDIA將向五個方向發力:Million-X百萬倍計算速度飛躍,大幅加快AI速度的Transformers,成為AI工廠的資料中心,對機器人系統的需求呈指數級增長以及下一個AI時代的數字孿生。NVIDIA還將不斷提升自身,並幫助合作伙伴、開發者和客戶共同發力,讓數字孿生技術加速落地,讓雲宇宙觸手可及。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/28285180/viewspace-2887223/,如需轉載,請註明出處,否則將追究法律責任。

相關文章