總說具身智慧的資料太貴,鵬城實驗室開源百萬規模標準化資料集

机器之心發表於2024-08-23
圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


該論文作者來自於鵬城實驗室多智慧體與具身智慧研究所及南方科技大學、中山大學的師生團隊,包括林倞教授(研究所所長,國家傑青,IEEE Fellow),鄭鋒教授,梁小丹教授,王志強(南科大),鄭浩(南科大),聶雲雙(中大),徐文君(鵬城),葉華(鵬城)等。鵬城實驗室林倞教授團隊致力於打造多智慧體協同與模擬訓練平臺、雲端協同具身多模態大模型等通用基礎平臺,賦能工業網際網路、社會治理與服務等重大應用需求。

今年以來,具身智慧正在成為學術界和產業界的熱門領域,相關的產品和成果層出不窮。今天,鵬城實驗室多智慧體與具身智慧研究所(以下簡稱鵬城具身所)聯合南方科技大學、中山大學正式釋出並開源其最新的具身智慧領域學術成果 ——ARIO(All Robots In One)具身大規模資料集,旨在解決當前具身智慧領域所面臨的資料獲取難題。

圖片

圖片

  • 論文題目:All Robots in One: A New Standard and Unified Dataset for Versatile.General-Purpose Embodied Agents

  • 論文連結:http://arxiv.org/abs/2408.10899

  • 專案主頁:https://imaei.github.io/project_pages/ario/

  • 鵬城實驗室具身所網站連結:https://imaei.github.io/

作為具身機器人的大腦,想要讓具身大模型的效能更優,關鍵在於能否獲得高質量的具身大資料。不同於大語言模型或視覺大模型用到的文字或影像資料,具身資料無法從網際網路海量內容中直接獲取,而需透過真實的機器人操作來採集或高階模擬平臺生成,因此具身資料的採集需要較高的時間和成本,很難達到較大的規模。

同時,當前開源的資料集也存在多項不足,如上表所示,JD ManiData、ManiWAV 和 RH20T 本身資料量不大,DROID 資料用到的機器人硬體平臺比較單一,Open-X Embodiment 雖然達到了較大規模的資料量,但其感知資料模態不夠豐富,而且子資料集之間的資料格式不統一,質量也參差不齊,使用資料之前需要花大量時間進行篩選和處理,難以滿足複雜場景下具身智慧模型的高效率和針對性的訓練需求。

相比而言,此次釋出的 ARIO 資料集,包含了 2D、3D、文字、觸覺、聲音 5 種模態的感知資料,涵蓋操作導航兩大類任務,既有模擬資料,也有真實場景資料,並且包含多種機器人硬體,有很高的豐富度。在資料規模達到三百萬的同時,還保證了資料的統一格式,是目前具身智慧領域同時達到高質量、多樣化和大規模的開源資料集。

對於具身智慧的資料集而言,由於機器人有多種形態,如單臂、雙臂、人形、四足等,並且感知和控制方式也各不相同,有些透過關節角度控制,有些則是透過本體或末端位姿座標來驅動,所以具身資料本身比單純的影像和文字資料要複雜很多,需要記錄很多控制引數。而如果沒有一個統一的格式,當多種型別的機器人資料聚合到一起,需要花費大量的精力去做額外的預處理。

因此鵬城實驗室具身所首先設計了一套針對具身大資料的格式標準,該標準能記錄多種形態的機器人控制引數,並且有結構清晰的資料組織形式,還能相容不同幀率的感測器並記錄對應的時間戳,以滿足具身智慧大模型對感知和控制時序的精確要求。下圖展示了 ARIO 資料集的總體設計。

圖片

圖 1. ARIO 資料集總體設計

ARIO 資料集,共有 258 個場景序列,321064 個任務,303 萬個樣例。ARIO 的資料有 3 大來源,一是透過佈置真實環境下的場景和任務進行真人採集;二是基於 MuJoCo、Habitat 等模擬引擎,設計虛擬場景和物體模型,透過模擬引擎驅動機器人模型的方式生成;三是將當前已開源的具身資料集,逐個分析和處理,轉換為符合 ARIO 格式標準的資料。下面展示了 ARIO 資料集的具體構成,以及 3 個來源的流程和示例。

圖片

圖片

圖 2. ARIO 資料 3 個來源

真實場景的高質量的機器人資料不易獲取,但意義重大。鵬城實驗室基於 Cobot Magic 主從雙臂機器人,設計了 30 多種任務,包括簡單 —— 中等 —— 困難 3 個操作難易等級,並透過增加干擾物體、隨機改變物體和機器人位置、改變佈置環境等方式增加樣例的多樣性,最終得到 3000 多條包含 3 個 rgbd 相機的軌跡資料。下面展示了不同任務的採集示例以及採集影片。

圖片

圖 3. ARIO 真實機器人資料採集示例總說具身智慧的資料太貴,鵬城實驗室開源百萬規模標準化資料集 Cobot Magic 機械臂採集資料示例影片 總說具身智慧的資料太貴,鵬城實驗室開源百萬規模標準化資料集 基於 MuJoCo 的模擬資料採集示例影片 總說具身智慧的資料太貴,鵬城實驗室開源百萬規模標準化資料集 基於 Dataa SeaWave 平臺的模擬資料生成示例影片 總說具身智慧的資料太貴,鵬城實驗室開源百萬規模標準化資料集 基於 Habitat 平臺的模擬資料生成示例影片 總說具身智慧的資料太貴,鵬城實驗室開源百萬規模標準化資料集
從 RH20T 轉換的資料示例影片

得益於 ARIO 資料的統一格式設計,能夠很方便地對它的資料組成進行統計分析。下圖展示了從 series、task、episode 三個層面對 ARIO 的場景(圖 a)和技能(圖 b)的分佈進行統計。從中可見,目前大部分的具身資料都集中在室內生活家居環境中的場景和技能。

圖片

除了場景和技能,在 ARIO 資料中,還能從機器人本身的角度進行統計分析,並從中瞭解當前機器人行業的一些發展態勢。 ARIO 資料集提供了機器人形態、運動物件、物理控制變數、感測器種類和安裝位置、視覺感測器的數量、控制方式比例、資料採集方式比例、機械臂自由度數量比例的統計資料,對應下圖 a-i。

以下圖 a 為例,從中可以發現,當前大部分的資料來源於單臂機器人,人形機器人的開源資料很少,且主要來源於鵬城實驗室的真實採集和模擬生成。

圖片

圖 5.ARIO 資料集分類統計

更多關於 ARIO 資料集的詳細資訊與下載連結,請參考論文原文與專案主頁。

相關文章