RTX5090震撼釋出,國行16499元起,黃仁勳「美國隊長」pose亮翻全場

机器之心發表於2025-01-07

「GeForce 開啟了 AI 的大門,現在 AI 回到了 GeForce 的懷抱,帶來了新的革命。」


老黃穿上了新皮衣,拿來了新 GPU。

今天上午,全世界的目光都集中在了拉斯維加斯。
圖片
北京時間 1 月 7 日上午 10 點半,英偉達 CEO 黃仁勳在拉斯維加斯 CES 2025 展會上發表了主題演講(keynote),涉及到的話題包括 GPU、AI、遊戲、機器人等等。

演講開篇,黃仁勳回顧了英偉達 GPU 的發展史。從 2D 到 3D,CUDA 的誕生到 RTX。而到了人工智慧時代,GPU 又推動了 AI 從感知進化到生成,接下來將會是智慧體,未來還很快將要有進入物理世界的人工智慧。

機器學習改變了每個應用程式的構建方式以及計算的方式。現在,完全面向 AI 計算的硬體會是什麼樣子?英偉達為我們進行了一番展示。

RTX 50 系列全線釋出,最高 3352 TOPS

英偉達的 Blackwell 架構 AI 計算卡問世已久,人們一直在期待新架構的消費級 GPU,今天英偉達直接來了個一次性發布。

CES 現場,黃仁勳手持 RTX5090 顯示卡,雄赳赳氣昂昂地登上了演講臺。圖片
效能引數上,Blackwell GPU 的 RTX 5090 擁有 920 億電晶體、3352 AI TOPS(每秒執行萬億次運算次數)、380 RT TFLOPS(每秒執行萬億次浮點運算次數)以及 125 Shader TFLOPS(著色單元)。
圖片
RTX5090(及 5090D)擁有 32 GB GDDR7 視訊記憶體,視訊記憶體位寬 512 位,CUDA 核心數量是 21760,功耗 575W。更詳細的指標如下圖所示:
圖片
RTX 5090 是迄今為止最快的 GeForce RTX GPU,在 Blackwell 架構創新和 DLSS 4 的加持下,RTX 5090 的效能比 RTX 4090 高出了 2 倍。

還有更多的新技術:新一代超解析度 DLSS 4 將效能提升了 8 倍。英偉達首次推出了多幀生成功能,透過使用 AI 為每個渲染幀生成多達三幀來提高幀速率。DLSS 4 與 DLSS 技術套件協同工作,從而將效能提高到了傳統渲染的 8 倍,同時透過 NVIDIA Reflex 技術保持響應速度。

DLSS 4 還引入了圖形行業首個 Transformer 模型架構的實時應用。基於 Transformer 的 DLSS 光線重建和超解析度模型使用 2 倍以上的引數和 4 倍以上的算力,以在遊戲場景中提供更高的穩定性、更好的重影、更高的細節和增強的抗鋸齒效果。在釋出當天,DLSS 4 將在超過 75 款遊戲和應用程式中支援 RTX 50 系列 GPU。

同時,NVIDIA Reflex 2 引入了 Frame Warp 創新技術,在將渲染幀傳送到顯示器之前根據最新的輸入更新渲染幀來減少遊戲延遲。Reflex 2 最多可將延遲降低 75%,這讓遊戲玩家在多人遊戲中佔據競爭優勢,並使單人遊戲的響應速度更快。

另外,Blackwell 還將 AI 引入了著色器。25 年前,NVIDIA 推出了 GeForce 3 和可程式設計著色器,為長達 20 年的圖形創新奠定了基礎,包括畫素著色、計算著色和實時光線追蹤。此次 NVIDIA 還推出了 RTX 神經著色器,將小規模 AI 網路引入了可程式設計著色器,在實時遊戲中解鎖電影級材質、燈光等。

渲染遊戲角色是實時圖形中最具挑戰性的任務之一,RTX Neural Faces 將簡單的光柵化人臉和 3D 姿勢資料作為輸入,並使用生成式 AI 實時渲染時間穩定、高質量的數字人臉。

RTX Neural Faces 與用於光線追蹤頭髮和皮膚的全新 RTX 技術相得益彰,並與全新 RTX Mega Geometry 一起,可以在場景中實現多達 100 倍的光線追蹤三角形,從而有望為遊戲角色和環境帶來巨大的真實感飛躍。

英偉達中文官網也展示了 RTX 50 系列的引數情況。
圖片
在揭曉價格時,老黃玩了一個花招:還記得 RTX4090 的價格吧?現在你買 RTX5070,549 美元(國行售價 4599 元)就可以買到 4090 的效能。
圖片
不過看起來在 RTX5090 上,這一代還是漲價了(RTX4090 是 1599 美元),達到了 1999 美元。國行的 RTX 5090D 價格也已出來了,16499 元起,RTX 5080 是 8299 元起。
圖片
圖片
在移動端,RTX50 系列的效能提升也是非常可觀的,黃仁勳特意拿出來一臺 RTX 5070 的筆記本。今年移動版顯示卡的上市速度也會很快。
圖片
更多移動版型號的價格(整機)可見下圖:
圖片
不過黃仁勳並沒有仔細介紹各型號的基礎效能,還要等到時的真機測試。預計最早在 3 月份,就會有搭載 RTX50 系列顯示卡的裝置上市。

在繼續演講之前,黃仁勳先擺了個 pose:「全世界的網際網路流量都能透過這些晶片進行處理。」
圖片
他手裡拿著的一大塊晶圓上面有 72 個 Blackwell GPU,AI 浮點效能達到 1.4 ExaFLOPS,這就是 Grace Blackwell NVLink72。
圖片
與上一代產品相比,Blackwell 的每瓦效能提高了 4 倍。

新 Scaling Laws,首個基礎世界模型 Cosmos

我們知道,大模型遵循擴充套件定律(Scaling Laws),最近 AI 領域正在熱烈地討論的是規模是否走到頭了。

在英偉達看來,Scaling Laws 仍在繼續,所有新 RTX 顯示卡都在遵循三個新的擴充套件維度:預訓練、後訓練和測試時間(推理),提供了更佳的實時視覺效果。
圖片
英偉達宣佈推出基於 Llama 的一系列模型,包括 Llama Nemotron Nano、Super 和 Ultra。它們涵蓋從 PC 和邊緣裝置到大型資料中心等所有領域。

英偉達還發布了執行在 RTX AI PC 上的基礎模型,可支援數字人、內容創造、生產力和開發等任務。

這些模型都以 NIM 微服務的形式提供。基於 NIM 微服務構建的英偉達 AI Blueprints 可提供易於使用的預先配置好的參考工作流程。
圖片
AI 的下一個前沿是物理 AI,現在已經出現具身智慧、空間智慧等新概念。在 CES 上,英偉達釋出了世界模型 Cosmos 平臺,其中包含 SOTA 的生成式基礎世界模型、高階的 tokenizer、護欄以及高速影片處理流程。Cosmos 的目標是推動自動駕駛汽車 (AV) 和機器人等物理 AI 系統的發展。
圖片
英偉達表示,物理 AI 模型的開發成本很高,需要大量現實世界的資料和測試。Cosmos 世界基礎模型(WFM)可為開發者提供一種生成大量照片級真實、基於物理的合成資料的簡便方法,以訓練和評估他們現有的模型。開發者還可以透過微調 Cosmos WFM 來構建定製模型。

Cosmos 模型已經公開發布,下面是相關地址:
  • 英偉達 API 目錄:https://build.nvidia.com/explore/simulation

  • Hugging Face:https://huggingface.co/collections/nvidia/cosmos-6751e884dc10e013a0a0d8e6

英偉達表示已經有許多領先的機器人和汽車公司成為 Cosmos 的首批使用者,包括 1X、Agile Robots、Agility、Uber 等等。
圖片
黃仁勳表示:「機器人技術的 ChatGPT 時刻即將到來。與大型語言模型一樣,世界基礎模型對於推動機器人和自動駕駛汽車開發至關重要,但並非所有開發者都具備訓練自己的世界模型的專業知識和資源。我們建立 Cosmos 是為了讓物理 AI 普及化,讓每個開發者都能用上通用機器人技術。」

演講中,黃仁勳還展示了一些使用 Cosmos 模型的方式,包括影片搜尋和理解、基於物理學的照片級真實感的合成資料生成、物理 AI 模型開發與評估、使用 Cosmos 和 Omniverse 來生成可能的未來。

先進的世界模型開發工具

構建物理 AI 模型需要數 PB 的影片資料和數萬小時的計算時間來處理、整理和標記這些資料。為了幫助節省資料整理、訓練和模型定製方面的鉅額成本,Cosmos 提供了以下功能:
  • NVIDIA AI 和 CUDA 加速資料處理 pipeline,由 NVIDIA NeMo Curator 提供支援,使開發人員能夠使用 NVIDIA Blackwell 平臺在 14 天內處理、整理和標記 2000 萬小時的影片,而使用 CPU-only 的 pipeline 則需要三年多的時間。

  • NVIDIA Cosmos Tokenizer 是一種最先進的視覺 tokenizer,用於將影像和影片轉換為 token。與當今領先的 tokenizer 相比,它的總壓縮率提高了 8 倍,處理速度提高了 12 倍。

目前,整個物理 AI 行業的先驅都在使用 Cosmos,比如 AI 和人形機器人公司 1X 使用 Cosmos Tokenizer 推出了 1X 世界模型挑戰賽資料集,另一家以自動駕駛汽車為起點為世界提供生成式 AI 的先驅 Waabi 在自動駕駛軟體開發和模擬的資料管理環境中評估 Cosmos。

AI 超級計算機 Project DIGITS

英偉達還將之前的 AI 超級計算機 DGX-1 升級成了 Project DIGITS。整體來說:體型更小,效能更強。英偉達對其的描述是:「一款向全球的 AI 研究者、資料科學家和學生提供的個人 AI 超級計算機,讓他們可以獲得 NVIDIA Grace Blackwell 平臺的力量。」
圖片
Project DIGITS 採用全新的英偉達 GB10 Grace Blackwell 超級晶片,可提供 PFLOPS 級 AI 計算效能,可用於原型設計、微調和執行大型 AI 模型。使用 Project DIGITS,使用者可以使用自己的桌面系統開發和執行模型推理,然後在加速雲或資料中心基礎設施上無縫部署模型。
圖片
GB10 超級晶片可提供 PFLOPS 級且高能效的 AI 效能

GB10 超級晶片(Superchip)是基於 Grace Blackwell 架構的 SoC,可在 FP4 精度下提供高達 1 PFLOPS 的 AI 效能。

GB10 配備 Blackwell GPU,其中採用了最新一代 CUDA 核心和第五代 Tensor Cores,在透過 NVLink-C2C 晶片間互連連線到高效能 Grace CPU,其中包括 20 個採用 Arm 架構構建的高能效核心。英偉達表示,聯發科也參與了 GB10 的設計。

GB10 超級晶片使 Project DIGITS 能夠僅使用標準電源插座,就能提供強大的效能。每個 Project DIGITS 都具有 128GB 記憶體和高達 4TB 的 NVMe 儲存。藉助這款超級計算機,開發者可以執行多達 2000 億引數的大型語言模型,從而加速 AI 創新。此外,藉助 NVIDIA ConnectX 網路,還可將兩臺 Project DIGITS AI 超級計算機連線起來,執行多達 4050 億引數的模型。

讓 AI 超級計算觸手可及

藉助 Grace Blackwell 架構,企業和研究人員可以在執行 Linux 版 NVIDIA DGX OS 的本地 Project DIGITS 系統上對模型進行原型設計、微調和測試,然後將其無縫部署到 NVIDIA DGX Cloud、加速雲例項或資料中心基礎架構上。

這允許開發人員在 Project DIGITS 上對 AI 進行原型設計,然後使用相同的 Grace Blackwell 架構和 NVIDIA AI Enterprise 軟體平臺在雲或資料中心基礎架構上進行擴充套件。

另外,Project DIGITS 使用者可以訪問廣泛的 NVIDIA AI 軟體庫進行實驗和原型設計,包括有 NVIDIA NGC 目錄和 NVIDIA 開發者門戶中提供的軟體開發套件、編排工具、框架和模型。開發人員可以使用 NVIDIA NeMo 框架微調模型,使用 NVIDIA RAPIDS 庫加速資料科學,並執行 PyTorch、Python 和 Jupyter Notebooks 等常見框架。

英偉達表示其以及頂級合作伙伴將在 5 月推出 Project DIGITS,起售價為 3000 美元。

以上就是黃仁勳今天釋出的重點,你怎麼看?

參考連結:
https://nvidianews.nvidia.com/news/nvidia-blackwell-geforce-rtx-50-series-opens-new-world-of-ai-computer-graphics
https://nvidianews.nvidia.com/news/nvidia-launches-cosmos-world-foundation-model-platform-to-accelerate-physical-ai-development
https://nvidianews.nvidia.com/news/nvidia-puts-grace-blackwell-on-every-desk-and-at-every-ai-developers-fingertips

相關文章