1段影片=億萬虛擬場景,當真實世界秒變機器人訓練場

新闻助手發表於2025-03-19

3月19日,群核科技在GTC2025全球大會上宣佈開源空間理解模型SpatialLM,這是一個基於大語言模型的3D場景語義生成框架。它突破了傳統大語言模型對物理世界幾何與空間關係的理解侷限,賦予機器類似人類的空間認知和解析能力。這相當於為具身智慧領域提供了一個基礎的空間理解訓練框架,企業可以針對特定場景對SpatialLM模型微調,降低具身智慧訓練門檻。

1段影片=億萬虛擬場景,當真實世界秒變機器人訓練場

群核科技SpatialLM模型開源頁面

據悉,該模型僅透過一段影片即可生成物理正確的3D場景佈局。基於從影片中提取的點雲資料,SpatialLM模型能夠準確認知和理解其中的結構化場景資訊。目前,SpatialLM已在HuggingFace、GitHub、魔搭社群等平臺面向全球開發者開源。據群核科技相關技術負責人稱,此次開源僅是開始,接下來SpatialLM模型將繼續迭代如自然語言和場景互動等功能。

1段影片=億萬虛擬場景,當真實世界秒變機器人訓練場

SpatialLM執行原理

“我們希望打造一個從空間認知理解到空間行動互動閉環的具身智慧訓練平臺。本次開源的SpatialLM空間理解模型旨在幫助具身智慧機器人完成在空間認知理解上的基礎訓練。而去年群核科技釋出的空間智慧解決方案SpatialVerse,則希望進一步透過合成資料方案為機器人搭建最接近物理真實的‘數字道場’,實現機器人在模擬環境中的行動互動訓練。”群核科技董事長黃曉煌在接受採訪時表示。

據瞭解,群核空間智慧平臺SpatialVerse是本次亮相GTC的另一個重頭戲,它與SpatialLM模型之間“協同合作”,打通了"現實 - 虛擬 - 現實" 的閉環路徑,共同為具身智慧架起一座數字模擬與物理現實之間的橋樑。例如,SpatialLM模型透過從影片到結構化場景的轉化,將現實世界的資料轉化為虛擬環境中的豐富場景,而基於SpatialVerse的合成資料引擎,一個結構化場景又可泛化生成億萬級新場景。這也意味著,現實世界將成為SpatialVerse“數字道場”的原料來源。

"我相信全球很快會迎來具身智慧機器人的爆發性發展,在具身智慧背後,是算力、演算法、工程和訓練資料四個板塊的協同進化,這需要全行業合力推動。群核科技希望透過空間模型和資料開源一起推動技術基座建設,為這個技術奇點的來臨貢獻一份力量。”黃曉煌提到。據悉,在空間和具身智慧訓練上,目前群核科技已與矽谷頭部科技企業等在內的一批國內外具身智慧企業達成合作。

相關文章