上星期,英偉達 CEO 黃仁勳在 CES 上的演講成為了全球關注的焦點。英偉達不僅釋出了最新一代消費級顯示卡 RTX50 系列,全球首個基礎世界模型平臺 Cosmos,也展示了其對於從終端到雲端、從消費者到資料中心、從虛擬到真實物理世界的全方位發展路線。
其中,黃仁勳對於未來物理 AI(Physical AI)的論斷,或許會成為整個科技領域下一場大發展的預告。
ChatGPT 的出現標誌著生成式 AI 的大爆炸時刻,它幾乎可以針對任何查詢生成答案,有助於改變知識工作者在內容創作、客戶服務、軟體開發和業務運營等方面的數字工作。
如今,AI 正在進入智慧體階段,未來的物理 AI 則是 AI 在人形機器人、工廠和其它工業系統裝置中的具象化體現,目前尚未達到突破點。
不過,旨在引領業界發展方向的英偉達希望透過「三臺計算機」的構建,將先進的訓練、模擬和推理結合在一起,推動科技前進的步伐。
藉助生成式 AI,經過訓練的多模態 transformer 和擴散模型可以生成超越文字 token 的響應。但很大程度上,這些模型都無法理解或解釋三維世界。而這就是物理 AI 大顯身手之處。
物理 AI 模型可以透過生成式 AI 來感知、理解物理世界,與物理世界互動和進行導航。藉助加速計算,多模態物理 AI 領域的技術突破和基於物理的大規模模擬正在讓人們能夠透過機器人來實現物理 AI 的價值。
在不久的將來,所有移動或監控移動物體的東西都將是自主機器系統。這些系統將能夠感知環境,並對其做出反應。從手術室到資料中心,從倉庫到工廠,甚至交通控制系統或整個智慧城市,一切都將從手動操作的靜態系統轉變為由物理 AI 具象體現的自主互動式系統。
人形機器人是一種理想的通用機器人表現形式,因為它們可以在當前為人類構建的環境、設施中高效地執行,只需最小的部署和操作調整。
據高盛稱,到 2035 年,全球人形機器人市場的規模預計將達到 380 億美元,比近兩年前預測的約 60 億美元增長了六倍多。
英偉達認為,為了開發人形機器人,需要三個加速計算機系統來處理物理 AI 和機器人的訓練、模擬和執行時。兩項計算技術的進步正在加速人形機器人的發展:多模態基礎模型和可擴充套件的、基於物理的機器人及其世界的模擬系統。
生成式 AI 的突破正在為機器人帶來 3D 感知、控制、技能規劃和智慧。大規模的機器人模擬則可以讓開發者在模擬物理定律的虛擬世界中改進、測試和最佳化機器人技能,這有助於降低現實世界的資料採整合本,並確保它們能夠在安全、可控的環境中執行。
「最近三到六月的技術進步,讓所有科技公司都開始加速押注人形機器人,」英偉達機器人與邊緣計算副總裁 Deepu Talla 表示。「但通向目標的道路非常複雜。」
英偉達打造了完整的計算機和加速開發平臺閉環,助力開發者建立物理 AI:
- 首先,在一臺超級計算機上訓練大模型。開發者可以使用 NVIDIA NeMo 來訓練和微調強大的基礎和生成式 AI 模型,利用 NVIDIA Project GR00T,使人形機器人能夠理解自然語言,並透過觀察人類動作來模仿動作。
- 隨後,在 NVIDIA OVX 伺服器上執行的開發平臺上利用 NVIDIA Omniverse 透過 NVIDIA Isaac Sim 等應用程式程式設計介面和框架,進行測試和物理最佳化。
- 開發者可以使用 Isaac Sim 來模擬和驗證機器人模型,或者生成大量基於物理的合成資料來引導機器人模型的訓練。研究人員和開發者還可以使用 NVIDIA Isaac Lab,這是一個開源的機器人學習框架,為機器人強化學習和模仿學習提供動力,幫助加快機器人策略的訓練和完善。
- 最後,訓練好的 AI 模型被部署到執行時計算機上。NVIDIA Jetson Thor 機器人計算機專為滿足緊湊型板載計算需求而設計。由控制策略、視覺和語言模型構組成的模型集合構成了機器人的大腦,並部署在一個節能的板載邊緣計算系統上。
透過新的開發、部署體系,科技公司和研究機構可以顯著縮短開發時間,在現實世界的部署之前,透過模擬對機器人進行成千上萬次測試,加速整個開發流程,並保證安全性。
對英偉達來說,模擬是一個已有成功案例,正被擴充套件到更多領域的概念。在晶片設計領域,100% 的晶片在製造之前都需要進行模擬,以確保其功能完美,因為晶片設計中的錯誤可能導致數月的延誤,並耗費數百萬甚至數億美元。
在機器人領域,人們面臨的主要的挑戰在於「模擬與現實的差距」(sim-to-real gap)。直到最近,模擬技術的精度還略顯不足。英偉達提供的 Omniverse 等技術顯著縮小了這一差距。雖然差距尚未完全彌合,但改進已經足夠大,使模擬可以成為機器人開發中的一種可行且有效的工具。
「在英偉達,我們並不直接製造機器人,而是與從事機器人制造、機器人解決方案開發的人員合作,」Deepu Talla 表示。「我們正在構建的工作流程平臺可以幫助機器人專家、研究人員、機械工程師和測試人員更輕鬆地開發機器人解決方案。」
大模型面臨的資料挑戰
目前,1X Technologies、Agility Robotics、Apptronik、波士頓動力、傅利葉、銀河通用、Mentee、Sanctuary AI、宇樹科技和小鵬機器人等人形機器人制造商已經宣佈採用英偉達的機器人開發平臺。
對於目前的具身智慧方向來說,核心挑戰在於構建足夠體量的資料集。
利用 Isaac Lab 和 Isaac Sim,銀河通用開發了名為 DexGraspNet 的大型機器人靈巧抓取資料集,該資料集可應用於各種靈巧機器手,以及用於評估靈巧抓取模型的模擬環境。
今天的圖文大模型訓練所用的資料,實際上大部分來自網際網路,但對於人形機器人來說,能夠實現通用化所需要的真實世界資料要比自動駕駛從車輛感測器上收集的資料還要多出很多。
「谷歌和特斯拉的資料顯示,採集資料的成本非常高。13 萬條資料花費了 17 個月、16 個工程師以及 13 臺機器人。這樣的採集過程需要釋出高昂的成本。真實世界資料驅動人形機器人短期內難以實現具身智慧突破,」銀河通用創始人、CTO 王鶴表示。
透過利用 Omniverse 等工具,銀河通用探索了將各種 3D 固體資產、環境以及各類材質和紋理素材相互融合的方法,其模擬了機器人的執行場景。透過 10 億級的合成資料集,該公司訓練出了全球第一個堪稱基礎模型的具身端到端模型 GraspVLA,在一系列任務上實現了 zero-shot 操縱。
對此,英偉達還在不斷擴充套件合成資料的工具箱。在今年的 CES 展會上,英偉達首次釋出了 NVIDIA Isaac GR00T Blueprint,人形機器人開發者現在可以利用該工具透過少量人類示範構建自定義資料管線,生成大量合成軌跡資料。目前,GR00T Blueprint 處於受邀使用者訪問階段。
透過大規模合成資料的方法,人們正在利用英偉達提供的方法邁出解決機器人開發挑戰的關鍵一步。或許很快,我們就會看到更多公司開始應用這種創新工作流,並實現技術突破。