第一次在全球所有時區共同開啟的英偉達GTC大會,為我們帶來了全新一代安培架構的Quadro顯示卡,面向伺服器的DPU產品線,同時還有一款價格超低,堪比樹莓派的Jetson晶片。
撰文 | 澤南
「現在軟體已經可以自動生成軟體了,AI就是自動化過程中的自動化力量,」英偉達創始人黃仁勳在昨天的GTC秋季大會開場Keynote中說道。「AI編寫的軟體和人類大有不同,它們更加並行化,計算集中程度更是後者的千百倍。既然構建軟體的方式不同,那麼構建它們的計算基礎設施、工具、軟體以及開發方式也要不同。」 人工智慧需要人們重新思考計算的方法,從晶片、系統、演算法、工具再到生態系統。面對如此挑戰,英偉達給出了自己的最新答案。
在昨天的GTC Fall活動中,黃仁勳釋出了安培架構的新一代專業級顯示卡Quadro RTX Ampere,並宣佈將於今年12月交付。 「我知道你們都在急切地想要搶到自己的安培GPU——這是絕對可以理解的,我可以保證你的等待是值得的。安培是英偉達歷史上最大的一次躍升,我們每次放出新貨都是立刻售罄,」黃仁勳表示。「我們正在加班加點,你的新顯示卡正在路上。」 不過這次要釋出的是專業級的GPU。NVIDIA的新一代Quadro RTX顯示卡A6000,與此前推出的RTX 30系列一樣使用三星的8nm工藝打造,採用GA102 GPU,最高配備10752CUDA 核心,比RTX 3090還多256個。A6000的記憶體也達到了48GB,不過使用的是DDR6而非GDDR6X,因為目前後者無法實現足夠高的容量。 在效能方面,英偉達宣稱A6000在一些任務上的能力是上一代產品Quadro RTX 8000的兩倍,這主要是透過製程提升、吞吐量增加、新浮點演算法以及記憶體容量提升實現的。目前英偉達還未提供A6000的更多具體資料,以及最重要的價格。已知的是,A6000的功耗比3090要低50W,僅為300W。 另有一款功率相同的被動散熱計算卡Quadro A40也將於2021年第一季度上市。A40幾乎具有與主動冷卻的A6000相同的所有功能,只是採用了純被動散熱的形式,適用於高密度伺服器。有了RTX顯示卡的算力,英偉達還推出了3D模擬模擬和協作平臺Omniverse,透過這一工具,影像技術開發者們能夠實時模擬出細節逼真的現實世界。它可以讓負責3D建築設計的建築師、修改3D場景的動畫師以及協作開發自動駕駛汽車的工程師,像線上共同編輯文件一樣輕鬆設計3D虛擬場景。目前,Omniverse已獲得了許多主要專業軟體的支援,如Adobe、Autodesk、Bentley Systems、Robert McNeel & Associates和SideFX等。在本次GTC上,英偉達還宣佈Omniverse進入公測階段,將於今年秋季開放下載。「任何動起來的東西,在未來或多或少都會是自動化的。AI技術的突破已經讓各種各樣的機器人形態成為可能,」黃仁勳說道。「但我們還需要Jetson AI的算力把這些機器人實用化。」 和以往一樣,Jetson擁有一個Arm架構的SoC,也支援CUDA,並擁有自己的Tensor Core。而更重要的是,昨天新發布的Jetson Nano 2GB價格已經低至 59 美元一塊——這是一個和樹莓派(Raspberry Pi 4)接近的低價。現在,英偉達希望所有人都可以使用GPU製造自己的機器人。構建機器人相關的軟體和AI的開發流程有些類似,人們會使用DGX這樣的裝置編寫和訓練,並在Jetson這樣的端側執行。在實踐中,英偉達研究人員已經訓練了很多現成模型,使用遷移學習工具,任何人都可以把它們應用在自己的任務上。在機器人領域,現在還可以透過實時的AI模擬環境大幅度提高訓練的效率。 除了價格更低之外,Jetson Nano 2GB的計算配置和常規Jetson Nano相同,有4個Cortex-A57 CPU核心的CPU,以及128個CUDA核的Maxwell架構GPU。不過2GB版本相比標準版少了DisplayPort輸出,USB介面也不是3.0的。還記得剛釋出的賓士S級嗎?這臺車是梅賽德斯有史以來最智慧化的車型,其中搭載了三塊帶英偉達GPU的計算晶片。在GTC Keynote上,英偉達還宣佈了和賓士的新合作計劃:到2024年,所有賓士車系都將搭載英偉達的DRIVE AV晶片。
三 推出DPU,基於Arm架構的可程式設計資料中心晶片我們都知道英偉達正在收購Arm,不過相比商業行為,英偉達的技術進展更快一些。這家公司在收購Mellanox之後,共同研發了新一代計算單元DPU。英偉達推測,全球伺服器的算力吞吐總量每兩年增長十倍,而在2020年中,僅在AI推斷任務中,在所有云伺服器中使用GPU的算力數量已經超過了CPU。「按照這個趨勢,在幾年之後英偉達的GPU將會承載超過90%的全球AI推理算力。任何AI的應用和服務現在都可以基於英偉達晶片,」黃仁勳說道。 AI和資料分析應用必須是分散式的,由多個GPU和節點負責運算,雲服務實際上也是巨量的「微服務」,這種新型的工作負載對虛擬化、網路、儲存和安全提出了新的要求。在資料中心的計算裝置上,人們提出了 DPU(Data Processing Unit)的新概念。這是一種更多透過軟體定義的基礎設施晶片。新發布的DPU名為Bluefield-2,這種計算卡是以可程式設計 Arm 架構 CPU 為核心運作的。 Bluefield-2 DPU擁有70億電晶體,將可程式設計的資料中心壓縮成晶片大小。與之相對的,英偉達也釋出了DOCA——可程式設計資料中心基礎設施處理器的軟體架構,允許開發者在DPU上構建自己的應用。英偉達表示,DOCA可以無縫相容所有主流系統。Bluefield-2只是一個開始,在英偉達的計劃中,Bluefield-4將會引入CUDA和NVIDIA AI,大大加速網路中計算機視覺應用處理的速度。 如果使用者現在就對AI算力有很高需求,英偉達也釋出了Bluefield-2X,其中的安培架構GPU核心可以用於處理所需任務。「Bluefield-2X可以讓你就像已經擁有了Bluefield-4一樣,」黃仁勳說道。「在幾年之後,我們將會帶來近1000倍的吞吐量,並提供200-400Gbps的資料速度。」 在推動收購Arm的同時,英偉達也宣佈了支援Arm架構的新三大戰略:提供更多對Arm架構的GPU、網路、儲存和安全的支援,實現更完整的加速平臺;與合作伙伴開發覆蓋從端側到HPC所有平臺的裝置;接入NVIDIA AI和NVIDIA RTX技術到Arm架構——此前這些支援僅限於X86。 英偉達釋出的這些產品,全部是為了開發者能夠在構建AI技術時獲得更多力量。在昨天的GTC上,英偉達一口氣升級和更新了80款SDK,目前旗下工具的總量達到了110款。目前全球使用英偉達CUDA等工具的開發者數量已達到200萬人。 「在AI時代的新形式計算中,我們會為探索前沿方向和技術民主化親盡全力。」黃仁勳說道。