雖然因為產品太貴而被吐槽,但提起最強 AI 晶片、高階遊戲 GPU,人們還是首先要看英偉達。9 月 20 日晚,GTC 大會線上上召開,萬眾期待的 RTX 40 系列顯示卡終於正式釋出了。
與以往稍有不同,這場重要的 Keynote 顯得樸實無華而且「簡短」,黃仁勳直接站在空曠的元宇宙裡開講:
一個半小時收工。
在這場活動中,英偉達展示了 RTX、AI 晶片和元宇宙產品線 Omniverse 的最新進展,還包括它們對人工智慧領域新突破的幫助,以及大量應用落地。
在一切開始之前,老黃先展示了一段全可互動的模擬環境 RacerX,它用 Omniverse 構建,物理材質特性、光線追蹤、煙霧火焰一個不少。最重要的是「全部沒有預渲染過,是跑在單塊 GPU 上的」:
黃仁勳說,全部實時處理,這才是未來遊戲的該有的樣子。
能跑得起 RacerX 的肯定是最新 RTX 40 系顯示卡,AMD 也要釋出新一代 GPU 了,英偉達這次會保持領先嗎?如果 N 卡效能更強,代價是什麼?
RTX 40 系列 GPU:效能翻倍,光追能力翻倍
這就是英偉達的第三代 RTX 顯示卡,採用全新的 Ada Lovelace 架構。
英偉達轉投臺積電後,使用定製版 4N 製程加成的 RTX40 系 GPU 被塞進了 760 億個電晶體,比上一代 Ampere 多了 70%。
25 年前,英偉達推出了可程式設計著色的 GPU,徹底改變了計算機 3D 圖形的世界。到 2018 年,英偉達推出 RTX 架構,新增的 RT Core 用於加速實時光線追蹤,Tensor Core 用於處理矩陣運算,又實現了前所未有的效果。在剛剛推出的 Ada Lovelace 架構中,三種處理器均有改進和提升,其中:
1、SM 流處理器新增著色器重排序執行能力(Shader Execution Recording),可以實時重新排程任務,把光追速度提升 2-3 倍,在 4090 上能輸出 90TFLOPS,效能較上代提升兩倍。
2、第三代 RT Core 實現了兩倍的光線與三角形求交效能,全新的 Opacity Micromap 引擎可以把 Alpha-test 幾何效能提升 2 倍,Micro-Mesh 引擎可提升幾何圖形的豐富度,而不會帶來 BVH 構建和儲存資源的更多消耗。
3、新的第四代 Tensor Core 可以實現 1.4 petaFLOPs 算力,AI 效能翻倍。
「Shader Execution Recording 和當年的 CPU 亂序執行一樣,是一項重大創新,」黃仁勳說道。「光線追蹤很難並行處理,而 GPU 具有高度並行性,SER 透過即時重新安排著色器負載來提升效率,可以提升 2 到 3 倍光追效能,遊戲效能提升 25%。」
但我們知道,光線追蹤曾經被英偉達前首席科學家 David Krik 說成是「永遠不會到來」的技術,效能翻倍也不能讓 GPU 保證在如今的各種大型單機遊戲中保持高幀率,這個時候就需要 AI 演算法了。
DLSS 使用卷積自動編碼器 AI 模型,可以在 GPU 輸出的低解析度畫面基礎上自動腦補出高解析度,大幅降低效能需求。英偉達在 Ada 架構中引入了 DLSS 3,其可以在解析度提升的同時自動補幀。DLSS 3 包含四個元件:新的光流加速器、遊戲引擎運動向量、卷積自動編碼 AI 幀生成器和 Reflex 低延遲流水線。
DLSS 3 同時處理當前幀和上一幀,光流加速器為神經網路提供運動方向和速度資訊,結合圖形和畫素的運動向量,輸入神經網路就可以生成中間幀了。
「DLSS 3 在不涉及圖形管線處理的前提下生成全新幀,相較於單純的渲染可以將效能提升多至 4 倍,」黃仁勳表示。「而且不論 CPU 還是 GPU 有瓶頸的遊戲都可以從中受益。」
英偉達展示了開 DLSS 3 的賽博朋克 2077、微軟模擬飛行等遊戲的執行效果:
4 年來,RTX 的資料量提升了 16 倍,現在的一些畫素是計算得出,大多數是 AI 推測出來的。
在演示中,幾個遊戲都是幀數直接乘以二。但值得注意的是,DLSS 3 和新硬體特性高度繫結,30 和 20 系的使用者無法享受這樣的效能。
英偉達公佈了 40 系顯示卡的多項常規硬體規格:RTX 4090 採用 AD102 GPU,擁有 16384 個 CUDA 核心和 24GB GDDR6X 視訊記憶體,預設 TDP 為 450W;RTX 4080 16GB 版擁有 9728 個 CUDA 核心,TDP 為 320W;RTX 4080 12G 版擁有 7680 個 CUDA 核心,TDP 為 285W。從功耗上看,從三星 8nm 換到臺積電 4N 工藝效率提升顯著,同級效能提升了,電源要求沒有提升。
效能相比上代提升了多少?透過 SER 最佳化、更大規模晶片,再加上晶片加速頻率從 1.7GHz 提升到 2.52GHz,綜合起來可以讓 RTX 4090 相比 3090Ti 效能翻一倍;如果看光線追蹤,效能則提升了 4 倍。黃仁勳表示,Ada 的同功耗效能是 Ampere 的兩倍。
再往下,RTX 4080 可在開 DLSS 時達到 3080Ti 的兩倍效能。
最後是價格:RTX 4090 公版售價 1599 美元,10 月 12 日開始售賣;RTX 4080 16GB 售價 1199 美元,12GB 版售價 899 美元。
總結一下就是 90 的價格幾乎沒漲,80 的價格漲了 500 美元。對於國內使用者來說,RTX 40 系的售價是這個樣子:4090 12999 元起,4080(16GB)9499 元,4080(12GB)7199 元。
看起來非公版的 RTX 4090 價格將在 15000 左右。
不過,這一代顯示卡有個需要注意的地方:看起來 12G 版的 4080 似乎是把原定的 70Ti 改了名字。
英偉達 Omniverse 連線了 3D 世界
除了 GPU 和 AI,英偉達也是元宇宙的引領者,黃仁勳介紹了 Omniverse 的一系列進步。
Omniverse 是英偉達構建和執行元宇宙應用的平臺,在數字和現實世界交匯之處產生作用。Omniverse 還是一個實時的大型 3D 資料庫,構建一個可共享的 3D 世界。Omniverse 更是一個計算平臺,你可以編寫在其上執行的應用,這些應用成為進入虛擬世界的門戶。
今日,黃仁勳釋出了關於其 Omniverse 平臺的一系列重大更新,它支援了 Ada Lovelace GPU,在光線追蹤和大型場景效能方面實現巨大飛躍。
首先是基於 GAN 和擴散模型的新型神經渲染工具。OmniGraph 是一個圖形渲染引擎,透過程式化的方式控制行為、動作和行動。
其次是 Omniverse Physics 的重大更新,它可以用來處理複雜的多連線部件物件的運動情況。
然後是全新的 Cloud XR,支援在 VR 中實現 Ada 的強大光線追蹤功能。還有首個用於資料生成和數字孿生模擬的 SimReady 素材庫。
Replicator 是備受青睞的 Omniverse 應用之一,用來生成合成資料,從而訓練自動駕駛汽車、機器人和各種計算機視覺模型。最後是新的 Omniverse JT 聯結器,它是一款大型應用,使得工業和製造業可以運用 Omniverse。
可以這麼說,Omniverse 是一個企業平臺,適用於從產品設計和造型到工程策劃、製造、營銷和運營的整個產品生命週期。正如網際網路連線了各個網站,Omniverse 連線了 3D 世界。
黃仁勳在會上了展示了一些公司利用 Omniverse 為工廠、物流倉庫、自動化生產線和工業廠房建立數字孿生的情況。我們可以從以下一些場景案例中探知一二。
Omniverse 計算平臺由三部分組成:RTX 計算機,供創作者、設計師和工程師使用;OVX 伺服器,用來託管與 Nucleus 資料庫的連線並執行虛擬世界模擬;NVIDIA GDN,進入 Omniverse 的門戶。
透過 GeForce Now,英偉達構建了一個全球圖形交付網路(即 GDN)。該網路覆蓋了 100 個地區,提供響應靈敏的超快 RTX 圖形內容交付網路(即 CDN),高效串聯網際網路影片。而 NVIDIA GDN 能夠高效串聯互動式圖形,並結合 NVIDIA RTX PC、雲端的 NVIDIA GPU 打造覆蓋全球的 Omniverse 計算平臺。
NVIDIA Omniverse Cloud 則是一套軟體和基礎設施即服務套件,用於隨時隨地在任何裝置上設計、釋出和體驗元宇宙應用。黃仁勳在會上展示了超級跑車和高階電動車解決方案的先行者 Rimac 公司,以及它是如何利用 Omniverse Cloud 為 3D 團隊實現協作工作流,併為使用者提供先進的 3D 體驗。
黃仁勳表示,NVIDIA Omniverse Cloud 是一款 IaaS 產品,可以連線在雲上、本地和單個裝置上,執行 Omniverse 應用。Replicator 和 Farm 也可以在雲上執行,其中 Farm 是渲染農場的擴充套件引擎。目前,使用者可以在 AWS 上使用 Replicator 和 Farm 容器。
新一代自動駕駛晶片 Drive Thor
在自動駕駛領域,車企都需求更強的算力,而英偉達產品的每代效能都要翻倍。
當前,智慧機器開發掀起了一波 AI 浪潮,深度學習的參與更為系統能力的提升開啟了新的大門。從軟體的開發方式到執行方式,一切都變得截然不同。因此,打造新一代處理器勢在必行。英偉達 Xavier 是世界上第一款專為深度學習設計的自動駕駛超級晶片,之後每兩年便在處理器效能上完成一次巨大飛躍。
同時,為了擴充自動駕駛領域,提升駕駛的安全性,感測器在數量和解析度上面臨同步增長。同時引入更復雜的 AI 模型,所有這些因素都驅使英偉達不斷提升效能。
2021 年,英偉達推出了 1000 TOPS 的 SoC——Atlan。今天,黃仁勳表示它的位置已被 Thor 取代。Thor 的吞吐量是 Atlan 的兩倍,交付效能也是 Atlan 的兩倍以上。實現這些目標離不開三個因素:Grace、Hopper 和 Ada Lovelace,其中 Grace 提供了令人驚歎的 Transformer 引擎、ViT 的快速變革,Ada 中的多例項 GPU 有助於車載計算資源的集中化,將成本降低數百美元。
Nvidia Drive Thor 採用很多新技術,它可以被配置為多種模式,將其 2000 TOPS 和 2000 TFLOPs 全部用於自動駕駛工作流。同時可以將其配置為一部分用於駕駛艙 AI 和資訊娛樂,一部分用於輔助駕駛。Thor 中的多計算域隔離允許併發、對時間敏感的多程式無中斷執行。你可以在一臺計算機上同時執行 Linux、QNX 和 Android。
此外,Thor 還集中了眾多計算資源,降低成本與功耗的同時實現功能飛躍。目前,汽車的停車、主動安全、駕駛員監控、攝像頭映象、叢集和資訊娛樂均由不同的計算裝置控制。而未來,這些功能將不再由單獨的計算裝置控制,而是由在 Thor 上執行、並隨時間推移不斷改進的軟體統一控制。
Thor 晶片預計 2025 年上車使用。
NVIDIA Drive 是一個面向自動駕駛汽車開發與部署的端到端平臺,在開發方面包含了 Replicator 合成資料生成、Drive Sim 和 Drive Map,在部署方面包含了全棧駕駛和車內 AI 應用、AI 計算機和 Hyperion 自動駕駛汽車參考架構。
NVIDIA Drive 迎來了一系列功能更新,首先是名為 Neural Reconstruction Engine 的 AI 工作流,已成為了 Drive Sim 的一項主要功能。它可以根據記錄的感測器資料構建 3D 場景,在將 3D 場景匯入 Drive Sim 之後透過人工建立或 AI 生成的內容對其進行增強。另外,這個從影片到 3D 幾何圖形的工作流可以在 OVX 系統上執行。
從影片到 3D 工作流的動態展示。
Drive Sim 的另一項重要功能是硬體在環,意味著我們可以在 AI 工廠執行整個車載軟體棧。它還可以模擬車內環境,未來的汽車不僅有簡單的儀表板,還有將數字設計與物理設計相結合的環繞螢幕,這樣汽車工程師、軟體工程師和電子工程師可以在 Drive Sim 中展開協作,同時執行所有的實際計算機與軟體棧。
Drive Sim 成為了虛擬設計工作室。
此外,英偉達還在開發 Drive 端到端自動駕駛系統的其他方面取得了出色進展,比如 Replicator 合成資料生成、AI 模型改進、Drive Map 自動駕駛車隊地圖構建、城市和高速公路駕駛及停車。
Drive Map 的自動駕駛車隊地圖構建。
全新微型機器人系統級模組
Drive Orin 是英偉達推出的第二代自動駕駛汽車計算晶片,目前看來非常成功,已經被 40 多家汽車、卡車和無人駕駛計程車使用。Jetson 是英偉達的機器人計算機,擁有 100 萬開發者,使用的公司約為 6000 家。
今日的 GTC 大會上,黃仁勳宣佈推出一款微型機器人系統級模組晶片 Jetson Orin Nano,它的速度較之前的 Jetson Nano 快了 80 倍。Jetson Orin Nano 可以執行 NVIDIA Isaac 機器人堆疊,並具有 ROS 2 GPU 加速框架。
黃仁勳還介紹了其邊緣 AI 平臺 Metropolis,它可解讀攝像頭、鐳射雷達和其他物聯網感測器的資料,提高倉庫、工廠、零售商店和城市的安全性與效率。
從工業到科研,自動駕駛到元宇宙,英偉達的業務早已從 GPU 擴充到了無數領域,並在很多地方都有引領地位。對於普通消費者來說,顯示卡也早已不是玩遊戲用的了。
現在,新一代 GPU 已經推出,你會選擇降價後的 RTX30,還是買新不買舊呢?