具身智慧狂潮降臨的一年多里,物理世界與資訊的生產與互動方式發生著革命性變化。
與此同時,一場新的爭奪戰正悄然打響:各大廠商絞盡腦汁,以奪取最有價值的 AI “燃料”—— 資料。當前,資料匱乏仍是通用具身智慧面前的高牆。縱觀過去三年,在谷歌、英偉達、OpenAI 等知名企業對具身智慧的研究中,暫未窺見 Scaling Law 的出現,這與缺少各類資料有關。
如何解決這一根本性痛點?從技術的角度,Sim2Real AI 是一個長期存在的路徑。但由於對消弭 Sim2Real gap 存在 “理念型偏差”,學術界和產業界更多地將其視為一個輔助的資料補充手段。
但是否真的如此?
香港中文大學(深圳)終身教授、跨維智慧創始人賈奎透過從學術界到產業界的長期踐行,給出答案:“Sim2Real AI 正是通往具身智慧的最高效路徑。”
從二維視覺到三維視覺、從空間智慧到具身智慧、從科研到產品再到商業落地,賈奎在這一領域已探索了二十餘年。近期,在 WAIC 上,進行了一場關於具身智慧如何突破資料困局的對談。
如果用 AI 來試圖理解這次對談,它也許會幫助你概括出這些要點:
當下最火熱的空間智慧和具身智慧的本質是什麼?
以 Scaling Law 正規化實現空間與具身智慧的具體涵義是什麼?
哪條路是實現通用具身智慧的最高效路徑?
具身智慧如何從技術到產品再到商業落地?
未來,有哪些能夠突破行業生產正規化的想象成真?
當然還有 AI 暫時理解不了的部分 —— 這位科研工作者、創業者,展現出了其堅定信心及歷史使命。
以下為訪談實錄:
問:被譽為 “AI 教母” 的李飛飛教授首次創業即選擇了 “空間智慧” 方向,引發了對這一領域的廣泛關注。可以談談您對空間智慧和具身智慧的理解嗎?
賈奎:空間智慧和具身智慧是近年來進入到社會層面備受關注的話題,但其背後的學術研究已經持續了很久。空間智慧(Spatial Intelligence)是一個多維度的概念,通常指個體在三維物理空間及四維時空中的認知和推理能力,包括感知、推理、決策等方面。具身智慧(Embodied Intelligence)則是指智慧系統具備物理形態,並透過這個形態與環境進行互動的智慧。具身智慧不僅僅關注感知,還包括智慧體對環境的行動和反應。就像人類使用雙眼感知世界一樣,具身智慧要求機器人能夠透過多模態感測器進行感知、互動和決策,形成綜合的空間認知和操作能力。
問:空間智慧與具身智慧的異同點是什麼?
賈奎:就像前面提到的,空間智慧賦予 AI 感知並理解現實世界的能力,而具身智慧則不僅需要空間智慧涉及到的對物體、環境及其他智慧體的感知和認知推理,還進一步涵蓋了機器人操作所需的高階運動規劃和低階運動控制,以及由機器人本體與操作物件互動所定義出的類似人類操作能力的各類機器人 “技能”。每一種技能的掌握,意味著機器人可以處理與該技能相關的各種物體物件,而不僅僅是一個特定的、具體的物件。
這些技能包括 “子技能” 和 “原子技能” 的集合,形成了一個機器人技能庫,或稱為 “技能空間”。具身智慧的本質是學習並泛化這個技能空間,從而實現像人類一樣具備具身屬性的通用人工智慧(AGI)。
在具體應用中,空間智慧範圍更廣,可以是附著在機器人身上,也可以脫離機器人,本質上是一個對空間的理解的問題,例如它的重要應用 AR/VR。而具身智慧則主要體現在機器人身上,特別是通用(人形)機器人。
總的來說,空間智慧更多地關注四維時空中的認知和推理能力,而具身智慧則進一步包括了透過物理形態與環境進行直接互動的能力。
問:您為什麼會選擇空間與具身智慧方向創業?
賈奎:可以說我們對這一領域關注得很早,有深厚的歷史沉澱和技術積累。團隊在早期就成立了 “幾何感知與智慧實驗室”,當時這一領域尚未被大家所熟知的 “大廠” 涉足。我們是中國最早將人工智慧技術應用於三維等非歐資料的學者和團隊之一。
我們團隊在幾何深度學習、三維建模、空間感知、機器人應用等方向進行了大量交叉創新研究,取得了一系列代表性成果,包括 Grasp Proposal Networks (NeurIPS 2020), Analytic Marching (ICML 2020/TPAMI 2021), Sparse Steerable Convolution (NeurIPS 2021), 3D AffordanceNet (CVPR 2021), Fantasia3D (ICCV 2023), SAM-6D (CVPR 2024) 等等。
DexVerse™ 2.0 引入了全新的 4D Mesh 技術,專為動態物理模擬和資料渲染生成而設計,可統一處理剛體、軟體、流體等多種物件。作為引擎的核心表達形式,4D Mesh 將貫穿物理模擬、資料標註生成到大模型訓練的整個流程。
問:您理解的空間與具身智慧的核心理念是什麼?在這條火熱的賽道上,跨維的優勢在哪?
賈奎:我們認為,空間和具身智慧的核心在於建立 “世界模型”,讓機器人具備類似人類感知的 “靈性”。具體來說,需要建立能夠對空間幾何與物理過程進行精準建模、理解與推理的 “世界模型”,使包括視覺、力覺、觸覺等在內的各類機器人感測器具備人類感知的能力。
在當前的 AI 架構和模型正規化下,我們團隊希望透過生成式物理模擬,捕捉人類生存世界的時空四維映象,從而獲取無窮無盡的物理屬性資料 —— 這是實現空間與具身智慧的關鍵。
因此,跨維自成立之初就打造了底層自研的 DexVerse™ 空間與具身智慧引擎,能夠針對具體的商業場景,實現 “物理模擬 - 資料合成 - 模型訓練” 的全鏈條自動化,並基於此形成空間與具身智慧大模型套件及純視覺智慧感測器,賦予通用機器人提供智慧的大腦和雙眼。
目前,跨維已經在多個商業場景中,實現以 100% 的合成資料,在毫米 / 亞毫米的操作精度要求下,達到 99.9% 以上的任務成功率。
問:您剛剛談及以 Scaling Law 正規化實現空間與具身智慧,可以再詳細說說它的具體含義嗎?實現通用空間與具身智慧會比實現大語言模型的通用性更難嗎,難在哪裡?
賈奎:實現通用空間與具身智慧確實比實現大語言模型的通用性更難。以 OpenAI 的 GPT 系列為代表的大語言模型,透過利用海量自然語言文字,並結合 “自監督預訓練 + 監督學習 + 強化學習意圖對齊” 的方式,實現了自然語言理解任務的零樣本(zero-shot),即通用能力,展示了所謂的 AGI 的曙光。
人類自然語言可以看作是對所生活的宇宙和自然環境經過高度抽象後,提煉出的語義編碼。因此大語言模型直接在抽象層面進行學習和泛化,相對容易一些。
比較而言,空間智慧需要從感測器獲取的原始訊號中學習,這意味著要跨越從原始數字訊號到人類語義符號之間的 “語義鴻溝”。要透過類似 GPT 的 Scaling Law 正規化來學習通用智慧,需要大量訓練資料;而空間智慧的訓練資料不僅需要大量,還要對感測器獲取的原始訊號進行精確標定,以確保其具備絕對物理尺度上的度量,這比從網際網路獲取海量影像文字資料困難得多。
具身智慧更進一步,除了需要從視覺、力覺、觸覺等高維感知訊號中學習通用智慧,其更本質的目標是學習由機器人本體和操作物件共同定義出的機器人 “技能空間”。具身智慧的通用性體現在技能空間中的泛化,這增加了對不同正規化的學習難度。
問:可以談談空間智慧與具身智慧具體需要哪些多模態大模型能力嗎?
賈奎:空間智慧涉及在三維物理世界的感知、互動、推理、決策等任務,具身智慧進一步要求基於對視覺、力覺、觸覺等空間感知訊號的智慧分析,形成機器人的自主操作技能庫。
因此,需要包括自然語言、力觸視、機器人本體狀態等模態在內的多模態大模型能力。這些多模態能夠在共通的語義、時空及技能空間中 “融會貫通”,從而實現像人一樣的空間及具身智慧。
問:在您看來,通用空間與具身智慧離終局還有多遠?
賈奎:目前,以海量資料、大模型和巨大算力為特點的 Scaling Law AI 正規化,在通用機器人硬體成熟的前提下,即人形機器人、靈巧手、類人感測器等核心部件能夠以高價效比方式穩定量產,至少能夠支援空間與具身智慧在多個有邊界和 ROI 合理的商業場景閉環中,形成獨立的商業價值。
具體來說,在工業、物流、商業、家庭等多個場景中,機器人能夠以可泛化的方式完成多種任務。當然,這需要獲取海量具備物理屬性的多模態資料,以及支援監督訓練、模仿學習、強化學習等多種學習策略的豐富標註的自動計算。
問:之前關注到您在 WAIC 演講中提到 “Sim2Real AI 是最高效的具身智慧實現路徑”,可以展開說說嗎?
賈奎:要實現具身智慧,必須考慮資料的性質和目標。具身智慧的目標是讓機器人基於視覺、力覺、觸覺等感測器訊號,在變化多端的物理世界中實現通用操作能力,就像我們人類每天在日常生活中所做的那樣。
在 Scaling Law AI 正規化下,即機器學習模型並無真正的通用智慧或者說泛化性,而是僅僅在學習統計分佈及其統計分佈中 “插值” 能力,訓練具身智慧機器人需要獲取大量資料。
這些資料要涵蓋每個機器人技能在所涉及的各種操作情況上,比如從早到晚、春夏秋冬、室內到室外的所有操作情況。如果依賴於機器人資料採集系統或可穿戴裝置,例如大家耳熟能詳的 “遙操作”,那麼要採集足夠的資料,首先需要建立一個商業模式,讓使用者在享受服務、享受商業價值的同時,順便幫忙採集資料,但目前並沒有這樣的方式。
相較而言,Sim2Real AI 透過物理模擬和合成資料,可以更高效地覆蓋上述所有變化。這種方法允許在虛擬環境中模擬各種操作物件、環境變化、機器人構型和感測器變化,並能針對不同商業場景共享底層的物理模擬和資料生成能力。包括剛體、鉸鏈、軟體、流體等在內的任何操作物件,都可以透過精準的物理模擬支援資料生成。
因此,總的來說,雖然利用機器人資料採集系統或可穿戴裝置 “遙操作”,可以快速展示一些類人操作動作,但與實現通用機器人所需的具身智慧能力相比,這種方法顯得 “南轅北轍”,Sim2Real AI 才是實現目標的最高效路徑。
問:那在這種技術路徑下,如何消弭合成資料與真實資料之間的 GAP?
賈奎:從學術界的角度,Sim2Real AI 是一個長期存在的技術路徑,是實現空間與具身智慧的主流路徑之一。我們團隊也是從學術界起步,在產品和業務落地的過程中,成功地趟出一條獨特道路:能夠在多個場景中以 100% 的合成資料,在毫米 / 亞毫米的精度要求下,實現 99.9% 以上的任務成功率,這在全球範圍內可能都是絕無僅有的。
任何成功都不是偶然的,而是基於對問題的深入理解和系統化解決。從第一性原理出發,思考事物的內蘊,跨維團隊透過簡化複雜問題,層層拆解,找到了有效的解決方案。
簡單的說,以 Sim2Real AI 的方式走通具身智慧,需要對包括:
1)機器人本體模擬、多模態感測器模擬、不同形態的操作物件模擬以及動態過程模擬;
2)模擬對應的資料和標註渲染生成;
3)具身智慧大模型設計和訓練等在內的環節建立可 Sim2Real 遷移的自動化鏈條,並且至少需要克服以下核心技術門檻:
底層可控的具身性物理模擬
高效多模態大模型訓練與持續學習
有效應對合成與真實資料域差別
低成本海量數字資產獲取
問:那基於您剛剛提及的 Sim2Real AI 技術路徑,跨維有哪些實踐結果?
賈奎:跨維從底層構建了一個包括物理模擬、資料渲染生成、自動標註計算、模型設計與訓練等模組在內的具身智慧引擎 DexVerse™。這個引擎無需研發人員的參與,能夠全鏈條自動化地產生針對具身智慧任務的 AI 模型 SDK,資料生成速度與 AI 模型的訓練迭代速度同頻,從而完全不需要存貯資料,積攢多少條訓練資料也將不再是具身智慧落地的一個量化標準。目前,跨維在多個場景中的軟硬體產品落地都由 DexVerse™ 支撐。
如上圖所示,DexVerse™ 2.0 更進一步:
首先,給定一個邊界清晰的商業場景和機器人硬體構型,DexVerse™ 2.0 能夠利用大語言模型自動拆解所涉及到的機器人技能及子技能。
其次,針對任意一個技能或子技能,DexVerse™ 2.0 能夠自動化地生成模擬所需物件、場景等數字資產,並基於這些資產模擬渲染生成虛擬空間中的機器人操作過程資料條。
緊接著,透過虛擬空間中的資料生成,訓練具身智慧 3D VLA(Vision Language Action)模型。
最後,訓練好的模型可以在選定的商業場景內驅動機器人本體,以通用的方式完成各種機器人技能操作。
透過 DexVerse™ 具身智慧引擎 2.0 全鏈條自動化地進行任務拆解、場景生成、訓練配置生成、模型訓練,並將訓練好的模型匯入真機引導機器人完成小鹿積木拼裝的操作。
透過這個全自動化引擎,通用機器人修煉具身智慧技能 / 子技能的飛輪將最高效地轉動起來,推動通用機器人在更多場景實現落地。跨維將與更多產業方合作,開放生態,合作共贏,共同推進中國具身智慧與通用機器人產業高速發展。
問:跨維為什麼選擇自研引擎?跨維 DexVerse™引擎與英偉達的 Omniverse™有什麼差異?
賈奎:跨維做具身智慧引擎與英偉達的 Omniverse™等引擎的理念是完全不同的。
如果說 Omniverse™是橫向擴充,覆蓋機器人、科學計算、AI for Science 等不同板塊,同時為英偉達的 AI 算力產品服務,那麼跨維的 DexVerse™則是端到端垂直打穿,引擎的迭代演進是為實現垂直場景中的具身智慧技能任務服務的。
在當前 Sim2Real AI 仍處於創新驅動產品業務落地的階段,只有依託自研引擎,才能支撐研發過程中從物理模擬、資料渲染生成、自動標註計算、具身智慧模型設計和訓練的各個環節,逐點攻關,掌握 know-how, 才能實現產品在業務場景中的真正落地。
問:您認為具身智慧從技術到產品再到商業落地,需要怎樣的實現路徑?
賈奎:具身智慧的本質,是透過學習包含各種可泛化技能的機器人技能庫,賦予各類機器人在不同應用場景中的通用操作能力;因而其商業化落地,必須以工業、農業、商業、個人 / 家庭等一個個有邊界的商業場景為目標,“以終為始”,透過建立獨立商業場景中的機器人通用技能,形成產品價值和商業落地。
技術上,具身智慧必須以 Sim2Real AI 的方式,打通任務理解、數字資產生成、資料模擬生成、AI 模型訓練的自動化鏈條,以最高效的方式實現通用機器人任務學習,並在這個過程中形成適用不同商業場景的軟硬體產品,包括具身智慧 SoCs、智慧感測器、通用機器人控制器等。
路徑上,具身智慧需要首先賦能機械臂、複合機器人等等相對成熟的硬體本體,並隨著靈巧手、人形機器人等通用本體的成熟量產,進一步提升整體能力,產生更大的商業價值。
問:基於您提出的高通用性具身智慧 L1-L5 五個階段,跨維當前到哪個階段了?
賈奎:跨維基於自研的 DexVerse™具身智慧引擎,已經建立了服務智慧製造、智慧農業等應用場景的場景任務理解、數字資產生成、資料模擬生成、AI 模型訓練等全鏈條能力,並形成了包括智慧視覺感測器、PickWiz 軟體、複合機器人等具身智慧產品。
目前,跨維已經跑通了 “Simulation to Reality” 的商業模式,在汽車零部件、3C 製造、新能源、家電、化工、物流等 30 餘個行業中落地,合作了包括廣汽、美的、海爾、松下、藍思科技等在內的眾多行業頭部客戶。
參照上圖 L1-L5,跨維已完成具身智慧 L1 階段的發展,正在穩健地邁向 L2 級,這在全球範圍內,都是屈指可數的。
問:您認為具身智慧、人形機器人的終局生態鏈是怎樣的?跨維會做(人形)機器人硬體整機麼?
賈奎:通用機器人終局生態鏈由人形本體廠商、零部件廠商、視觸力等感測器廠商、具身智慧晶片與方案供應商等組成。跨維 DexVerse™具身智慧引擎在產業鏈去往終態的過程中,在技術路徑、產品形態、場景業務落地等方面將發揮決定性作用,透過 DexVerse™的 Sim2Real AI 全鏈條能力,以終為始,從商業閉環的方式推動具身智慧機器人在硬體構型、感測器選型、資料模態正規化及多模態大模型等方面統一標準。
跨維已形成複合機器人、智慧視覺感測器、PickWiz 軟體等具身智慧產品,在落地更多商業場景的過程中,跨維將首先賦能相對成熟的移動 / 輪足底盤 + 雙機械臂的具身智慧本體,並最終與人形機器人本體廠商形成合力,實現通用具身智慧的廣泛落地。