英偉達將於今年底前向 ARM 生態系統提供全堆疊的 AI 和 HPC 軟體,這意味著它將為 ARM 的 600 多個 HPC 應用程式和所有 AI 框架提供加速,其中包括了所有 NVIDIA CUDA-X AI 和 HPC 庫、GPU 加速的 AI 框架和軟體開發工具,如支援 OpenACC 的 PGI 編譯器和效能分析器。
相應支援上線之後,英偉達將為市面上所有主要 CPU 架構提供加速:覆蓋 x86、POWER 和 ARM。
另一方面,英偉達也為自己在超算領域的實力秀了秀肌肉:宣佈僅用三週時間就完成了一臺全球排名達 22 位的超級計算機「DGX SuperPOD」,而且如果有需求,任何客戶都可以複製這樣的部署速度。
全力支援 ARM 架構
眾所周知,ARM 目前是全球智慧裝置第一大主流晶片架構提供商,全球超過 90% 的智慧裝置採用了 ARM 的晶片架構,包括手機、平板、手錶、電視、無人機等等。不過最近 ARM 正計劃將自身架構的晶片用於資料中心和超級計算機上——而在高效能運算(HPC)領域,英特爾的晶片一直佔據主導地位。
當然,ARM 與英特爾、IBM 也有所不同,前者只提供晶片設計的許可,使用者可以在這一基礎上自行製造所需的晶片。
「這種開放性……讓 ARM 架構變得非常具有吸引力,」英偉達加速部門副總裁 Ian Buck 表示。「我們向 ARM 伸出橄欖枝的原因,是它能夠為超級計算機提供開放的架構。」
在今年 3 月的 GTC 大會上,黃仁勳就曾表示英偉達正在和 ARM 共同開發人工智慧專用晶片。而在 6 月 17 日德國法蘭克福的國際超算大會上,英偉達終於宣佈了全面支援 ARM CPU 的計劃。
Ian Buck 表示,使用 ARM 製造超級計算機將會是一個「重要舉措」。目前,來自歐洲和日本的研究人員已開始著手使用 ARM 技術開發超級計算機晶片。在英特爾 x86、IBM Power 之後,基於 ARM 架構的伺服器正成為目前火熱的方向。
去年 11 月,亞馬遜率先發布了基於 ARM 架構的伺服器晶片,並開始提供相應的雲服務;2019 年 1 月,華為推出了基於 ARM 架構的伺服器晶片鯤鵬 920,以及「TaiShan」伺服器,引發了人們的廣泛關注。通過使用 ARM 架構,各家公司或許可以基於自身業務的特性,打造更高效率的計算裝置。
英偉達創始人、執行長黃仁勳對此表示:「超級計算機是促進科學發現的重要工具,建立百萬兆級超級計算將能夠極大地擴充套件人類知識的邊界。隨著傳統計算規模擴充套件步伐的停止,功率也將成為所有超級計算機的限制因素。NVIDIA CUDA 加速的計算和 ARM 的高能效 CPU 架構的相結合,將助力 HPC 社群實現大幅提升,以達到百萬兆級。」
「ARM 正在與生態系統合作,為基於 ARM 的 SoC 帶來前所未有的計算效能提升,」ARM 執行長 Simon Segars 表示,「HPC 社群已經部署了 ARM 技術,以應對全球最複雜的研究挑戰。通過與英偉達合作,將 CUDA 加速引入 ARM 架構,這一舉措對於 HPC 社群來說,可謂是一大重要里程碑。」
根據 6 月 17 日釋出的 Green500 排行榜,在全球最節能的 25 款超級計算機中,有 22 款都由英偉達幫助打造。
英偉達稱,其中的關鍵因素在於:採用 NVIDIA GPU 的超級計算機能夠將繁重的處理作業轉化為更為節能的並行處理 CUDA 任務之上;英偉達與 Mellanox 合作優化整體超級計算叢集的處理;以及英偉達推出的 SXM 3D 封裝,以及可實現極密集型擴充套件節點的 NVIDIA NVLink 互連技術。
英偉達對基於 ARM 的 HPC 系統的支援建立在雙方超過 10 年的合作基礎之上。此前,英偉達的幾款用於行動式遊戲、自動駕駛汽車、機器人和嵌入式 AI 計算的系統級晶片產品都採用了 ARM 處理器。
超算中心、系統提供商以及系統級晶片製造商等在內的眾多 HPC 行業及 ARM 生態系統中的全球領先企業,都表達了對於這些合作的支援。
三週打造超級計算機 DGX SuperPOD
英偉達昨天還公佈了全球速度排名第 22 位的超級計算機「DGX SuperPOD」,為人工智慧和高效能運算提供了一個全新範例。DGX SuperPOD 可以為滿足企業的自動駕駛汽車部署專案提供所需的算力基礎。
這臺超級計算機系統的搭建,僅用時 3 個星期,其採用了 96 臺 NVIDIA DGX-2H「超級計算機」與 Mellanox 互聯技術。其處理能力高達 9.4 petaflops,能夠用於訓練安全自動駕駛汽車所需要的海量深度神經網路。
更吸引人的是,基於 DGX SuperPOD 的設計,客戶可通過任意 DGX-2 合作伙伴購買整套超級計算機系統,或者其中的一部分。
自動駕駛汽車的人工智慧訓練可以說得上是密集型計算密的終極挑戰。
一臺資料收集車輛每小時能生成 1 TB 資料。整個車隊經過數年行駛後,其資料量將會很快達到幾 PB(千兆兆位元組)的量級。這些資料會被用來根據道路規則對演算法進行訓練,並且還會被用來找出車輛內執行的深度神經網路的潛在故障,然後在連續的迴圈中再次訓練。
NVIDIA 人工智慧基礎設施副總裁 Clement Farabet 表示:「若要保持人工智慧領先地位,則需要在計算基礎設施方面保持領先。很少有像訓練自動駕駛汽車這樣對人工智慧又如此之高的需求,其需要對神經網路進行數萬次的反覆訓練,以滿足極高的精度需求。對於如此大規模處理能力而言,DGX SuperPOD 無可替代。」
DGX SuperPOD 內含 1,536 顆內含 Tensor Core 的 Tesla V100 GPU,由 NVIDIA NVSwitch 及 Mellanox 網路結構相聯接,為其提供強力支援,使其能夠以同等大小的超級計算機所無可匹敵的效能處理資料。
該套系統能夠不間斷執行,優化自動駕駛軟體,並以前所未有的週轉時間(turnaround time)反覆訓練神經網路。
例如,DGX SuperPOD 軟硬體平臺能夠在不到 2 分鐘的時間之內完成 ResNet-50 訓練。在 2015 年,這種深度學習模型推出的時候,採用當時最快的單塊 NVIDIA K80 GPU 需要 25 天才能完成訓練任務。而 DGX SuperPOD 生成結果的速度較之加快了 18,000 倍。
英偉達稱,其他具備同等效能的 TOP500 超級計算機系統都由數千臺伺服器構建而成,而 DGX SuperPOD 佔地面積更少,其體積比這些同等系統小 400 倍左右。
英偉達釋出 SuperPOD 並不僅僅是為了構建一臺超級計算機,更希望以此為更多潛在客戶提供一個範例:DGX SuperPOD 不僅能夠快速執行深度學習模型,得益於其模組化和企業級設計,該系統還能夠以極快的速度完成部署。在同等規模系統通常需要 6-9 個月完成部署的情況下,DGX SuperPOD 參考已驗證範例僅需 3 個星期即可部署完畢。
通過構建像 DGX SuperPOD 這樣的超級計算機,英偉達已經掌握瞭如何設計面向大規模人工智慧任務的系統。這足以讓高效能運算跨出學術界,為那些想要使用高效能運算加快其各種計劃的交通運輸公司及其他行業所用。
未來,英偉達還將與 ARM 共同打造適用於 IoT 裝置的 AI 晶片專用 IP,並使這款機器學習 IP 整合到 Arm 的 Project Trillium 平臺上,以實現端側機器學習。
參考內容:
https://blogs.nvidia.com/blog/2019/06/17/dgx-superpod-top500-autonomous-vehicles/
https://www.reuters.com/article/us-nvidia-arm-inc/nvidia-to-work-with-arm-chips-deepening-push-into-supercomputers-idUSKCN1TI0M9