收購Arm,推出80G超級A100:2020年,英偉達還有一招沒出
机器之心發表於2020-12-04
說起英偉達,很多人都知道這家公司最新推出的消費級顯示卡 RTX 3080,以及它一卡難求的火爆景象。實際上,由於 GPU 在高效能運算、AI 等領域的大規模應用,英偉達出品已經成為了很多工作中不可或缺的一部分。英偉達快速發展的技術,為人們帶來了近乎無窮的算力,也讓其自身業績節節攀升。在過去 20 個季度中,英偉達已有 18 個季度的財務業績超過了華爾街分析師們的預期。今年英偉達釋出的新顯示卡,幾乎都是由黃仁勳自家烤爐中「出爐」的。就在自家消費級 GPU RTX 3080 顯示卡搶佔「最強 AI 計算晶片」的名頭後不久,11 月份英偉達又為旗下的最強 AI 訓練計算卡 A100 系列進行了升級。回想今年五月份,英偉達在 GTC 大會上釋出了 7nm 安培架構(NVIDIA Ampere)的 A100 GPU 產品,其中 40GB,頻寬為 1.6TB/s 的 HBM2 視訊記憶體令人印象深刻。11 月 16 日,競爭對手 AMD 帶來了 7nm CDNA 架構的 MI100 加速卡,英偉達繼續出招,推出了 A100 80GB GPU,視訊記憶體翻倍,效能大幅提升。時隔僅半年,英偉達推出的新卡有哪些具體的提升?首先在晶片的計算效能上,A100 80GB 的資料沒有變化,依然採用了基於 7nm 工藝的安培架構,整合 542 億電晶體、6912 個 CUDA 核心、加速頻率 1.41GHz,FP32 效能 19.5TFLOPS,FP64 效能 9.7TFLOPS,INT8 效能 624TOPS,額定功耗 400W。A100 搭載了英偉達特有的第三代 Tensor Core 人工智慧計算單元,對稀疏張量運算進行了特別加速,執行速度提高了一倍,也支援 FP64、 TF32、FP16、BFLOAT16、INT8 和 INT4 等精度的加速。透過全新的 TF32,A100 將上一代 Volta 架構的 AI 吞吐量提高多達 20 倍。新款 A100 計算卡的主要升級之處在於 HBM2 視訊記憶體:從之前的 40GB 直接翻倍達到 80GB,視訊記憶體型別升級為更先進的 HBM2e。同時視訊記憶體頻率從之前的 2.4Gbps 提升到 3.2Gbps,頻寬也從 1.6TB/s 提升到史無前例的 2TB/s。透過配合英偉達多例項 GPU(MIG)技術,每個例項在訓練時獲得的記憶體可以增加一倍,單卡最多可提供七個 MIG(每個 10 GB)。英偉達最新幾代 AI 訓練卡效能的對比,圖片來自 AnandTech。在 A100 上應用的技術還包括第三代 NVLink 和 NVSwitch 功能,相比上代,它們提供了兩倍的 GPU 到 GPU 頻寬,並將資料密集型工作負載到 GPU 的資料傳輸加速到每秒 600 GB。透過硬體與軟體的最佳化提升,A100 80G 可以在大型模擬系統中提供相比六個月前剛剛釋出的 A100「標準版」1.8 倍效能的提升。在材料模擬軟體 Quantum Espresso 上,單節點 A100 80GB 也實現了近 2 倍的吞吐量提升。這使得資料可以快速傳輸到全球最快的資料中心 GPU A100 上,使研究人員能夠更快地加速其應用,處理最大規模的模型和資料集,如類似 GPT-3 這樣的大規模預訓練模型,很大程度上避免了對於資料或模型並行架構的需求。在深度學習等很多領域中,研究人員對於 AI 算力的需求幾乎是無止境的,據英偉達在今年 5 月的統計,自 2017 年底釋出 V100 之後,訓練業界機器學習模型的算力需求增長了 3000 倍。在五月底 Open AI 的 GPT-3 推出以後,這一數字再次被抬高了不少。機器學習先驅 Richard S. Sutton 在《苦澀的教訓》中曾表示,70 年的人工智慧研究史告訴我們,利用計算能力的一般方法最終是最有效的方法。這種思想獲得了很多人的贊同,也引來了爭議。雖然一直有人認為,找到與人類思考方式類似的因果推理正規化才能真正地通往強人工智慧,但基於深度學習的方法在近年來已掌握了國際象棋、圍棋,實現了不少人類專家也難以企及的能力。除了前沿探索之外,更多的深度學習應用正在路上。與此同時,英偉達還發布了「全球唯一」的千萬億次級工作組伺服器 NVIDIA DGX Station A100,其配備四塊新款 A100 GPU,具有高達 320GB 的 GPU 記憶體,輸出算力 2.5 petaflops。在執行 BERT 等大模型時,新一代裝置的效率相比過去提高了三倍。雖然有超算級別的能力,但 DGX Station A100 無需配備資料中心級電源或散熱系統,而且年底即開始供貨。搭載 A100 80GB 的第三方成套系統則預計會在 2021 年上半年出貨。透過新計算卡和與之配合的架構,英偉達可以向更廣泛的人群輸出以往僅存在於超級計算機的 AI 算力。而說到超級計算機,英偉達也是目前業內的領先者,在 11 月全球超算大會 SC2020 公佈的 TOP500 榜單資料來看,近 70%的機器(包括排在前 10 名中的 8 臺)均採用了英偉達技術。GPU 在高效能運算領域能有如今的覆蓋率,顯然是因為有很大需求:在 SC2020 大會上,有超算界諾貝爾獎美稱的「戈登 · 貝爾獎」頒給了由 UC Berkeley、北京大學、普林斯頓大學組成的研究團隊,他們的研究被認為是當今計算科學中最令人興奮領域的重大進展。研究團隊引入基於機器學習的分子動力學方法模擬原子運動,每天能夠模擬 1 億原子超過 1 納秒的軌跡。該研究是在美國橡樹嶺國家實驗室的前世界第一超算 Summit 兩萬八千塊英偉達 V100 上完成的。戈登貝爾獎旨在表彰研究者們在高效能運算方面的成就,入圍者必須證明他們提出的演算法可以在世界上最強大的超級計算機上高效執行。中美獲獎團隊開發了一系列高度最佳化的程式碼(GPU Deep MD-Kit)並在 Summit 超算上順利執行,在雙精度下實現了 91 PFLOPS 的速度,在混合單 / 半精度下實現了 162/275 PFLOPS 的速度。將人工智慧演算法引入到 HPC 領域,並將邊界擴充至資料中心之外,是高效能運算領域裡正在進行的一項重大變革。而在這個過程中,英偉達將會繼續扮演舉足輕重的角色。今年 5 月份的 GTC 2020 大會上,黃仁勳釋出了 7nm 安培架構和 A100;9 月份的 GTC 大會上,又為我們揭曉了「PC 遊戲領域自 1999 年以來最大突破」——RTX 30 系列顯示卡。這還沒有完,在今年 12 月,GTC 大會還有一站。12 月 15-19 日,英偉達行業盛會 GTC 中國站將線上上開幕,大會期間,所有註冊參會者可透過登陸,定製個人參會日程、設定參會提醒、檢視積分並兌換,換取電商購物券、拉桿箱、NVIDIA Jetson Nano 等好禮。觀看主題演講還將有機會贏得 GeForce RTX 3070 顯示卡!所有福利僅限註冊使用者!即刻掃描海報二維碼,免費註冊,贏取大獎!