進軍Arm伺服器，攜手微軟開啟雲超算，這是英偉達黃仁勳的「超算已來」

机器之心發表於2019-11-19

原文網址 : https://www.jiqizhixin.com/articles/2019-11-19-12

正在美國丹佛舉行的 SC2019 是全球超算領域最重要的高階學術交流活動之一。今年 SC 的主題是「超算已來（HPC is now）」。隨著算力的不斷提升，以及先進演算法的不斷落地，超級計算機早已不再是科學研究專用的工具，而是已經成為了我們生活當中不可或缺的基礎設施。

Arm 架構伺服器的火熱當然少不了英偉達的參與。今年 6 月，英偉達就在德國宣佈了與 Arm 全面合作的新計劃：兩家公司將合力推動構建超級計算機。而加速計算平臺 CUDA 也將支援 Arm 架構，這一行動將為深度學習、高效能運算開啟了一條全新道路。

在 SC2019 大會上，這一願景得以實現。

推出基於 GPU 加速器的 Arm 伺服器

在大會上，英偉達 CEO 黃仁勳宣佈推出最新伺服器平臺設計，該平臺可以使企業能夠快速構建基於 GPU 加速器的 Arm 伺服器，從而開闢新的高效能運算（HPC）時代，並滿足越來越多的科學和工業應用。

進軍Arm伺服器，攜手微軟開啟雲超算，這是英偉達黃仁勳的「超算已來」

英偉達表示，該平臺由硬體和軟體構建塊組成，可以滿足 HPC 社群不斷增長的需求，從而利用更廣泛的 CPU 架構。它能夠使超級計算中心、超大規模雲運營商和企業將英偉達加速計算平臺的優勢與最新的基於 Arm 的伺服器平臺相結合。

為了構建該平臺，英偉達與 Arm 及其生態系統合作伙伴（包括 Ampere、Fujitsu 和 Marvell）展開合作，以確保英偉達 GPU 可以與基於 Arm 的處理器實現無縫協作。該平臺還得益於與 Cray 和 HPE 兩家基於 Arm 的早期伺服器提供商的大力合作。此外，許多 HPC 軟體公司已使用 NVIDIA CUDA-X 庫來構建可在 Arm 伺服器上執行的 GPU 賦能的管理和監測工具。

該平臺的首次亮相是在英偉達今年早些時候宣佈將 CUDA-X 軟體平臺引入 Arm 之前。為了兌現這一諾言，英偉達將預覽其與 Arm 相容的軟體開發套件，其中包括英偉達 CUDA-X 庫和用於加速計算的開發工具。

致力於更廣泛的 HPC 生態系統合作

除了使自己的軟體相容 Arm 外，英偉達還與 GROMACS、LAMMPS、MILC、NAMD、Quantum Espresso 以及 Relion 等主要 HPC 應用開發者密切合作，以將 GPU 加速的應用交付給 Arm。英偉達和其 HPC 應用生態系統合作伙伴已經編譯了大量的程式碼，以將 GPU 加速引入到 Arm 平臺上它們自己的應用。

此外，為了實現 Arm 生態系統，英偉達與 Canonical、Red Hat, Inc. 和 SUSE 等領先的 Linux 發行商以及業界領先的基礎 HPC 工具供應商展開合作。

目前，世界領先的超級計算中心已開始測試基於 GPU 加速的 Arm 計算系統，這其中包括美國橡樹嶺和桑迪亞國家實驗室、英國布里斯托大學和日本理化研究所。

英偉達希望能夠成為 Arm 生態的一部分，在 HPC，雲端計算等領域貢獻自己的力量。不過，英偉達的 Arm 生態目前主要專注於大規模計算的應用，在端側領域，其和高通等公司的合作還不明確。

聯合微軟推出全球最大「雲超算」

還記得英偉達 50 分鐘訓練 BERT 嗎？英偉達和微軟正希望把這樣的強大算力帶給更多人。

進軍Arm伺服器，攜手微軟開啟雲超算，這是英偉達黃仁勳的「超算已來」

除了在架構上的創新之外，英偉達和微軟在大會上共同推出了基於 Azure 雲服務的可擴充套件 GPU 加速型超級計算機 NDv2。新的微軟 Azure NDv2 可以擴充套件到數百個用於複雜 AI 和高效能運算（HPC）應用的英偉達 Tensor Core GPU。

被構建用於處理要求最高和高效能的計算應用，Azure NDv2 的部署將使其躋身於世界上最快超級計算機之列，最多可提供 800 個在單個_Mellanox InfiniBand_後端網路上互通的英偉達 V100 Tensor Core GPU。它使客戶首次可以按需租用整個 AI 超級計算機，並且其效能抵得上花費數月時間才能部署的大型本地超級計算機。

黃仁勳在會上表示：「現在，你可以啟動一臺 NDv2 例項，在 container 中抓取一個堆疊，並在 Azure 中啟動它。這就是科學，真是太神奇了！」

進軍Arm伺服器，攜手微軟開啟雲超算，這是英偉達黃仁勳的「超算已來」

黃仁勳宣佈推出可在微軟 Azure 雲服務上使用的、GPU 賦能的超級計算機 NDv2。他表示：「這使得世界各地的科學家都可以擁有一臺超級計算機。」

效能優越，成本效益高

英偉達表示，NDv2 非常適合複雜的 AI、機器學習和 HPC 工作負載，並且與傳統的基於 CPU 的計算相比，其可以提供顯著的效能和成本優勢。因此，需要快速解決方案的 AI 研究人員可以在短短几個小時內快速啟動多個 NDv2 和訓練複雜的對話型 AI 模型。

微軟和英偉達的工程師在叢集的預釋出版本上使用了 64 個 NDv2，在約三個小時內訓練了 BERT（目前最流行的 NLP 模型）。這在一定程度上是利用 NCCL 提供的多 GPU 優化的優勢，NCCL 是英偉達 CUDA X 庫和高速 Mellanox 的聯結器。

客戶還可以使用多個 NDv2 來執行復雜的 HPC 工作負載。此外，對於特定型別的應用而言，單個 NDv2 即可以在無需 GPU 加速的情況下，比傳統 HPC 節點快一個數量級的速度得出結果。對於大規模模擬而言，這種效能可以線性地擴充套件到 100 個 NDv2 例項。

所有的 NDv2 都可以獲益於 GPU 優化的 HPC 應用、機器學習軟體以及出自英偉達 NGC 容器登錄檔和 Azure Marketplace 的 TensorFlow、PyTorch 和 MxNet 等深度學習框架。NGC 容器登錄檔還提供了 Helm 圖表，從而可以輕鬆地將 AI 軟體部署到 Kubernetes 叢集中。

NDv2 目前釋出的是預覽版，搭載 8 塊英偉達 Tesla V100 GPU 的 NDv2 可以實現叢集化，以實現擴充套件進而滿足各種工作負載需求。

推出 Magnum IO 軟體套件，幾分鐘內實現資料移動

英偉達還在大會上宣佈推出 Magnum IO 軟體套件，該套件可以幫助資料科學家以及 AI 和高效能運算研究人員在幾分鐘內實現資料移動，而不再需要幾個小時了。

進軍Arm伺服器，攜手微軟開啟雲超算，這是英偉達黃仁勳的「超算已來」

在全球頂級超級計算機大會 SC19 開幕式上，有近 1400 名研究和技術人員聆聽了黃仁勳的主題演講。

就其效能而言，Magnum IO 進行了大幅度優化以消除儲存和輸入/輸出瓶頸，並且當在大規模資料集上進行復雜的金融分析、氣候建模和其他 HPC 工作負載時，Magnum IO 可以使得多伺服器和多 GPU 計算節點的資料處理速度提升高度 20 倍。

黃仁勳表示：「這是一個充滿創新的領域，我們將投入大量的精力幫助使用者高效地實現系統中資料的移入和移出。」

Magnum IO 的核心功能是英偉達 GPU Direct Storage，它在 GPU 記憶體和儲存之間提供了一個直接的資料通路，使得資料能夠繞過 CPU 並在 GPU、儲存和網路裝置所提供的的「open highways」上暢通無阻地傳輸。此外，GPUDirect Storage 還使研究人員在訪問儲存時可以繞過 CPU，並快速訪問資料檔案以進行模擬、分析或視覺化操作。

進軍Arm伺服器，攜手微軟開啟雲超算，這是英偉達黃仁勳的「超算已來」

GPU Direct 由對等網路和 RDMA 元素組成，並且可以與包括 NVLink、NCCL 以及 OpenMPI 以及 UCX 在內的各種通訊聯結器和 API 相容。

除了 GPU Direct Storage 功能之外，英偉達 Magnum IO 軟體套件現在可以使用，使用者可以進行搶先體驗。此外，英偉達計劃在 2020 年上半年釋出功能更廣泛的 GPU Direct Storage。

超算“猛將”英偉達
2020-11-19
英偉達：黃仁勳的個人安保費用約為70萬美元
2023-05-15
100%英偉達的錯：黃仁勳確認Blackwell缺陷修復，明年初出貨
2024-10-24
英偉達宣佈全面支援ARM高效能運算，三週打造全球排名第22超算
2019-06-18
英偉達剛剛釋出全球最大GPU：GTC2018黃仁勳演講核心內容都在這
2018-03-28
GPU
英偉達CEO黃仁勳：4年內全自動駕駛汽車能正式上路
2018-04-11
自動駕駛
英偉達CEO黃仁勳：GPU是AI時代利器，釋出全球首款可程式設計AI引擎
2018-04-18
GPUAI程式設計
黃仁勳演講
2024-06-16
英偉達總市值已達2.32萬億美元已超過俄羅斯GDP
2024-03-08
黃仁勳：NVIDIA加速計算為新HPC市場鋪平道路
2018-11-21
英偉達最新AI超級算力Blackwell GPU平臺即將登陸亞馬遜雲科技
2024-03-19
AIGPU亞馬遜
英偉達成全球市值最高公司，黃仁勳加州理工演講：年輕人抓住機會，要跑不要走
2024-06-19
英偉達收購 ARM 程式再度受阻！400 億美元交易要黃？
2021-12-08
AI時代的大門已經開啟，Tesra超算網路將加速這個程式！
2018-10-31
AI
黃仁勳：不要學習編碼
2024-02-25
超算雲(GPU伺服器)環境配置
2021-11-28
GPU伺服器
北鯤雲超算與傳統的超算中心有什麼不同？
2021-07-16
“雲上超算”——北鯤雲超算SaaS平臺
2021-07-14
探秘“啟明”“太乙” 走進南科大超算中心
2021-05-11
北鯤雲超算平臺——致力於提高科研效率，降低計算成本的雲超算平臺
2021-07-05
英偉達GPU顯示卡計算能力評估
2020-04-06
GPU
進軍“高定”裸金屬，京東雲支援超級計算叢集天琴α
2022-03-09
2018的全球超算500強美國Summit重奪算力冠軍
2018-06-25
MIT
NV歡迎Intel進入GPU市場黃仁勳如此評價
2019-04-16
IntelGPU
超算+AI+5G”將成未來超算研究新方向？
2020-02-27
AI
IDC：2019年全球雲端計算報告阿里雲增速超亞馬遜微軟
2020-03-02
阿里亞馬遜微軟
收購Arm，推出80G超級A100：2020年，英偉達還有一招沒出
2020-12-04
TrendForce：2020年英偉達與AMD營收超250億美元
2021-03-30
營收
英偉達贏麻了！馬斯克xAI超級算力工廠曝光，10萬塊H100、數十億美元
2024-05-27
馬斯克AI
AI新利器，英偉達推出新一代超強GPU
2018-08-15
AIGPU
英偉達正在用世界上最強大的人工智慧超級計算機制作宇宙的三維地圖
2021-06-04
人工智慧計算機地圖
綠盟科技簽約國家超算濟南中心科技園，助力我國開啟“超算時代”
2021-05-07
從GPU製造者到伺服器提供商：英偉達的計算平臺轉型
2018-06-18
GPU伺服器
軟銀「割肉」ARM，蘋果感覺不香，英偉達欲接手成就霸主地位？
2020-07-23
蘋果
英偉達AI：修圖軟體千千萬，效果最牛的還是我這款
2019-03-01
AI
專訪NVIDIA CEO黃仁勳：為工程師打造“Metaverse”，提升開發效率
2021-04-21
工程師Metaverse
無伺服器召喚師：我們已經進入了無伺服器超級計算機的時代 - David Wells
2020-06-14
伺服器計算機
長城超雲攜手希捷助力IPFS升級
2021-03-01
希捷

進軍Arm伺服器，攜手微軟開啟雲超算，這是英偉達黃仁勳的「超算已來」

相關文章