藉助 DPU 開啟 HPC 和超級計算效能的新時代

伺服器頻道發表於2022-10-11

超級計算機用於建模和模擬科學計算中極其複雜的過程,通常是為了洞察新發現,否則這些新發現在物理上是不切實際的或不可能演示的。

NVIDIA BlueField DPU(資料處理器)正在將高效能運算(HPC)資源轉化為更高效的系統,同時在從數學建模和分子動力學到天氣預報、氣候研究,甚至可再生能源的廣泛科學研究中加速解決問題。

BlueField 已經在雲網路、網路安全、通訊和邊緣計算領域產生了顯著影響。此外,在高效能運算的多個領域引發了應用程式效能和系統效率方面的創新。

NVIDIA BlueField-3 提供了強大的計算能力,其基於多個 Arm AArch64 核心、多執行緒資料路徑加速器、整合的 NVIDIA ConnectX-7 400Gb/s 網路 ,以及 I/O 路徑中的各種可程式設計加速引擎。它配備了雙 DDR 6500MT / s DRAM 控制器,並配有高達 32 GB 的板載記憶體。BlueField-3 是第三代片上資料中心基礎設施,可實現從雲到核心資料中心再到邊緣的、高效且強大的軟體定義、硬體加速基礎設施。

那麼,這一切對高效能運算意味著什麼呢?

提高 HPC 應用程式效能和可擴充套件性

HPC 就是為了提高效能和可擴充套件性。近二十年來,InfiniBand 網路在效能和應用程式可擴充套件性方面一直處於領先地位,這有幾個原因。

從高層次來看,InfiniBand 是有效的資料移動方式:直接資料放置。在資料從網路介面透過系統到達需要它的實際應用程式時,無需涉及 CPU 或作業系統,也無需製作資料的多個副本。

如果 InfiniBand 已經如此高效,BlueField 會帶來什麼好處?

InfiniBand 多年來一直在解決的關鍵挑戰之一是將網路通訊開銷從 CPU 移開,使其能夠將時間集中在擅長的事情上:應用程式計算和分支程式碼。

當今主流伺服器中的 CPU 過於通用,在數百或數千個與實際計算幾乎無關的程式中共享其計算週期、時間和資源。

BlueField 透過解除安裝、加速和隔離廣泛的高階網路、儲存和安全服務,為超級計算帶來了前所未有的創新和效率。

為什麼人工智慧時代帶來了

對 BlueField DPU 的需求

人工智慧研究領域作為一門學科於 1956 年成立。甚至在那之前的十年,科學家們就開始討論創造人工大腦的可能性。隨著現代計算機硬體和軟體的發展,這些概念很晚才成為現實。

2006 年,NVIDIA 推出了業界首個針對 GPU 的 C 編譯器開發環境 CUDA ,解決複雜計算問題的速度比傳統方法快 100 倍。今天,人工智慧成果豐碩,幾乎推動了科學研究的每個領域,改變了我們的生活,塑造了工業格局。

同樣, 2006 年年中推出了用於非阻塞集合操作的首個提案。為訊息傳遞介面(MPI)的集合組通訊功能而提出的非阻塞介面在理論上肯定是成效斐然的。然而,它並沒有在許多應用程式中實現。也許這是因為,在引入 DPU 之前,無法實現全部好處。

今天,隨著 BlueField-3 的問世,這項技術已經提供了創新、效能和效率所需的基本要素。為了提高應用程式效能和可伸縮性,並消除作業系統抖動的影響,非阻塞集合操作重新引起了人們的興趣。

科學計算還有幾個領域,包括早期的例子,BlueField 正在展示其如何將 HPC 轉化為高效和可持續的計算。

透過網路計算節省 CPU 週期

NVIDIA 的 Scalable Hierarchical Aggregation and Reduction Protocol(SHARP)技術透過將許多阻塞集體操作從 CPU 解除安裝到交換網路,且無需在端點之間多次傳送資料,從而提高了 MPI 操作的效能。這種創新的方法減少了到達聚合節點時穿越網路的資料量,並大大減少了 MPI 操作時間。

BlueField 透過利用其 Arm 核心實現非阻塞操作,擴充套件了額外的網路計算能力。這使系統主機 CPU 能夠執行峰值重疊計算。

圖 2 顯示了一個使用 MVAPICH2- DPU 庫的示例,該庫正在進行最佳化,以充分利用 BlueField 的全部潛力。它顯示了提取主機上發生的計算與 MPI_Ialltoall 通訊之間的峰值重疊的能力。

適用於 HPC 工作負載的計算儲存

計算儲存(或稱為儲存計算)為傳統儲存裝置帶來了 HPC 功能。在計算儲存中,您可以在儲存裝置內或旁邊執行選定的計算任務,從而減輕主機處理負擔並減少資料移動。BlueField 提供在單卡上結合儲存和網路計算的能力。

BlueField 使儲存軟體堆疊能夠從計算節點解除安裝,同時還可作為網路架構附加 NVMe 控制器,能夠加速關鍵儲存功能,如壓縮、校驗和計算以及奇偶校驗生成。此類服務在並行檔案系統中提供。

整個儲存系統堆疊在 Linux 核心中透明解除安裝,同時在 NVMe 目標端由 NVIDIA DOCA 簡單實現標準儲存功能。

新一代開放儲存架構為加速、隔離和保護高效能儲存系統提供了一種新的範例。該系統採用硬體和軟體協同設計,使 DPU 對使用者來說非常高效和透明。

檔案系統的加速意味著提高儲存系統中關鍵功能的效能,而儲存系統效能是基於深入學習的科學探究的關鍵促成因素。

將儲存客戶端和伺服器完全解除安裝到 DPU 的能力帶來以前無法實現的安全和效能隔離級別。關鍵資料平面和控制平面功能移動到 DPU 上的單獨域。這樣可以免除伺服器 CPU 的工作負擔,並在 CPU 或其軟體受損的情況下保護功能。

NVIDIA DOCA 軟體框架

NVIDIA DOCA SDK 是釋放 BlueField 潛力的關鍵。NVIDIA DOCA 和 BlueField DPU 透過一個全面、開放的開發平臺,共同實現了應用程式的開發,這些應用程式可以提供突破性的網路、安全、儲存和應用程式效能。

NVIDIA DOCA 支援一系列作業系統和發行版,包括驅動程式、庫、工具、文件和示例應用程式。即將釋出的 NVIDIA DOCA 1.5 和 2.0 版本引入了廣泛的網路、儲存、安全功能和增強功能,為 HPC 開發人員提供突破性的效能和高階程式設計能力:

全新的通訊通道庫

快速訪問主機記憶體以實現 UCX 加速

儲存模擬(SNAP),包括儲存加密

全新的 NVIDIA DOCA 服務,包括 UCC 解除安裝服務和遙測服務

NVIDIA DOCA 安全 SDK

改變 HPC 領域的今天和明天

許多創新領域已經初露端倪,BlueField DPU 、NVIDIA DOCA 以及社群將繼續為 HPC 領域帶來改變。

有些想法已經實現了,例如在資料中心範圍內增強效能隔離,或增強作業排程程式以實現更智慧的作業安排。

由於科學應用程式通常是高度同步的,因此係統噪聲對大型 HPC 系統的負面影響可能會對效能產生更大的影響。減少儲存等其他過程引起的系統噪音至關重要。

遙測資訊功能強大。它不僅僅是收集有關路由器、交換機和網路流量的資訊。相反,可以透過工作負載和 I/O 特性收集和共享資訊。

AI 框架精確地調整了 NVIDIA Quantum-2 InfiniBand 平臺中的效能隔離演算法。共享公共資料中心資源(如網路和儲存)的多應用程式環境可以確保能實現的良好效能,就像應用程式作為單個例項在裸機上執行一樣。

BlueField DPU 完全有能力應對大規模計算帶來的挑戰。

GTC23 演講、海報和培訓實驗內容徵集現已開放!


來自 “ 廠商動態 ”, 原文作者:廠商動態;原文連結:廠商動態,如有侵權,請聯絡管理員刪除。

相關文章