具身智慧技術突破與應用是通向 AGI 的必經之路,目前全球科技公司正加速佈局,包括特斯拉 Optimus、Agility Digit、波士頓動力 Atlas 及 Figure AI 等,今年蛇年春晚機器人“扭秧歌”也成為了人們茶餘飯後的談資。隨著大模型技術的進步,具身智慧也迎來了快速的發展。但在國內眾多企業與高校推動相關技術發展的過程中,核心挑戰仍在於具身操作泛化能力,即如何在有限具身資料下,使機器人適應複雜場景並實現技能高效遷移。
為此,京東探索研究院李律松、李東江博士團隊發起了該專案,聯合地瓜機器人秦玉森團隊、中科大徐童團隊、深圳大學鄭琪團隊、松靈機器人及睿爾曼智慧吳波團隊共同推進,得到了清華 RDT 團隊在 baseline 方法上的技術支援。我們提出首個基於三輪資料驅動的原子技能庫構建框架,突破傳統端到端具身操作的資料瓶頸。該方法可動態自定義和更新原子技能,並結合資料收集與 VLA 少樣本學習構建高效技能庫。
實驗表明,該方案在資料效率和泛化能力方面表現卓越,這是業內首個基於資料驅動的具身大模型原子技能庫構建框架,也是首個面向具身產業應用的資料採集新正規化。該框架旨在形成資料標準,解決當前具身智慧領域資料匱乏的問題,特別是在高校與產業之間資料和正規化的流動上,從而加速具身大模型研究的推進與實際落地。
論文標題:An Atomic Skill Library Construction Method for Data-Efficient EmbodiedManipulation
原文連結:https://arxiv.org/pdf/2501.15068
具身智慧,即具身人工智慧,在生成式 AI 時代迎來重要突破。透過跨模態融合,將文字、影像、語音等資料對映到統一的語義向量空間,為具身智慧技術發展提供新契機。VLA (視覺-語言-動作) 模型在資料可用性與多模態技術推動下不斷取得進展。然而,現實環境的複雜性使具身操作模型在泛化性上仍面臨挑戰。端到端訓練依賴海量資料,會導致“資料爆炸”問題,限制 VLA 發展。將任務分解為可重用的原子技能降低資料需求,但現有方法受限於固定技能集,無法動態更新。
為解決此問題,團隊提出了基於三輪資料驅動的原子技能庫構建方法,可在模擬或真實環境的模型訓練中減少資料需求。如圖所示,VLP(視覺-語言-規劃)模型將任務分解為子任務,高階語義抽象模組將子任務定義為通用原子技能集,並透過資料收集與 VLA 微調構建技能庫。隨著三輪更新策略的動態擴充套件,技能庫不斷擴增,覆蓋任務範圍擴大。該方法將重點從端到端技能學習轉向細顆粒度的原子技能構建,有效解決資料爆炸問題,並提升新任務適應能力。
基於三輪資料驅動的原子技能庫構建與推理流程
二、為什麼需要 VLP?VLP 需要具有哪些能力?
- 從產業落地角度看,具身操作是關鍵模組。目前,端到端 VLA 進行高頻開環控制,即便中間動作失敗,仍輸出下一階段控制訊號。因此,VLA 在高頻控制機器人/機械臂時,強烈依賴 VLP 提供低頻智慧控制,以指導階段性動作生成,並協調任務執行節奏。
- 為統一訓練與推理的任務分解,本文構建了整合視覺感知、語言理解和空間智慧的 VLP Agent。如圖所示,VLP Agent 接收任務指令文字與當前觀察影像,並利用 Prismatic 生成場景描述。考慮到 3D 世界的複雜性,我們設計了一種空間智慧感知策略:首先,Dino-X 檢測任務相關物體並輸出邊界框;然後,SAM-2 提供精細分割掩碼,並基於規則判斷物體間的空間關係。最終,這些視覺與空間資訊與任務指令一同輸入 GPT-4,生成完整執行計劃並指定下一個子任務。VLP Agent 透過該方法在原子技能庫構建中有效分解端到端任務,並在推理過程中提供低頻控制訊號,規劃並指導高頻原子技能的執行。
基於空間智慧資訊的 VLP Agent 具身思維鏈框架
三、VLA 存在的問題是什麼?在框架中起什麼作用?
- VLA 技術從專用資料向通用資料演進,機器人軌跡資料已達 1M episodes 級別;模型引數規模從千億級向端側部署發展;效能上,VLA 從單一場景泛化至多場景,提升技能遷移能力。儘管端到端任務採集與訓練有助於科研演算法最佳化,但在通用機器人應用中,人為定義端到端任務易導致任務窮盡問題。在單任務下,物品位置泛化、背景干擾、場景變化仍是主要挑戰,即便強大預訓練模型仍需大量資料克服;多工下,資料需求呈指數級增長,面臨“資料爆炸”風險。
- 提出的三輪資料驅動的原子技能庫方法可結合SOTA VLA 模型,透過高階語義抽象模組將複雜子任務對映為結構化原子技能,並結合資料收集與 VLA 少樣本學習高效構建技能庫。VLA 可塑性衡量模型從多本體遷移至特定本體的能力,泛化性則評估其應對物體、場景、空間變化的表現。以 RDT-1B 作品為例,我們基於 6000 條開源資料及 2000 條自有資料微調 VLA 模型。測試結果表明,模型在物品和場景泛化上表現優異,但在物品位置泛化方面存在一定侷限,且訓練步數對最終效能影響顯著。為進一步最佳化,團隊進行了兩項實驗包括位置泛化能力提升及訓練步長最佳化測試。這類 VLA 模型效能測試對於原子技能庫構建至關重要,測試結果不僅最佳化了 Prompt 設計,也進一步增強了高階語義抽象模組在子任務對映與技能定義中的精準性。
- 具身操作技能學習資料來源包括網際網路、模擬引擎和真實機器人資料,三者獲取成本遞增,資料價值依次提升。在多工多本體機器人技能學習中,OpenVLA 和 Pi0 依託預訓練 VLM ,再用真實軌跡資料進行模態對齊並訓練技能,而 RDT-1B 直接基於百萬級機器人真實軌跡資料預訓練,可適配不同本體與任務。無論模型架構如何,真實軌跡資料仍是關鍵。原子技能庫的構建旨在降低資料採整合本,同時增強任務適配能力,提升具身操作的通用性,以滿足產業應用需求。
- 基於資料驅動的原子技能庫構建方法,結合端到端具身操作 VLA 與具身規劃 VLP,旨在構建系統化的技能庫。VLP 將 TASK A, B, C, ..., N 分解為 Sub-task #1, #2, ..., #a+1。高階語義抽象模組基於 SOTA VLA 模型測試可調整任務粒度,進一步將子任務對映為通用原子技能定義 *1, *2, ..., *b+1,並透過資料收集與 VLA 少樣本學習,構建包含 *1', *2', ..., *b+1' 的原子技能庫。面對新任務 TASK N+1,若所需技能已在庫中,則可直接執行;若缺失,則觸發高階語義抽象模組,基於現有技能庫進行原子技能定義更新,僅需對缺失的原子技能收集額外資料與 VLA 微調。隨著原子技能庫動態擴增,其適應任務範圍不斷增加。相比傳統TASK 級資料採集,提出的原子技能庫所需要的資料採集量根據任務難度成指數級下降,同時提升技能適配能力。
5.1 驗證問題
- 在相同物體點位下采集軌跡資料,所提方法能否以更少資料達到端到端方法效能?
- 在收集相同數量的軌跡資料下,所提方法能否優於端到端方法?
- 面對新任務,所提方法是否能夠在不依賴或者少依賴新資料的條件下仍然有效?
- 所提方法是否適用於不同 VLA 模型,並保持有效性和效率?
5.2 實驗設定
針對上述問題,我們設計了四個挑戰性任務,並在 RDT-1B 和 Octo 基準模型上,以 Agilex 雙臂機器人 進行測試。實驗採用端到端方法和所提方法分別採集資料,以對比兩者在資料利用效率和任務泛化能力上的表現。具體實驗設定如下:
- 拿起香蕉並放入盤子
- 端到端方法:從 4 個香蕉點位和2 個盤子點位採集 24 條軌跡。
- 所提方法:保持資料分佈一致,分解為 12 條抓取香蕉軌跡和6 條放置香蕉軌跡。
- 為匹配端到端資料量,進一步擴大采樣範圍,從 8 個香蕉點位採集 24 條抓取軌跡,3 個盤子點位採集 24 條放置軌跡。
- 拿起瓶子並向杯中倒水
- 端到端方法:從 3 個瓶子點位和3 個杯子點位採集 27 條軌跡。
- 所提方法:分解為 9 條抓取瓶子軌跡和9 條倒水軌跡,確保資料分佈一致。
- 進一步擴大采樣範圍,從 9 個瓶子點位採集 27 條抓取軌跡,9 個杯子點位採集 27 條倒水軌跡。
- 拿起筆並放入筆筒
- 端到端方法:從 4 個筆點位和2 個筆筒點位採集 24 條軌跡。
- 所提方法:分解為 12 條抓取筆軌跡和6 條放置筆軌跡,保持資料分佈一致。
- 進一步擴大采樣範圍,從 8 個筆點位採集 24 條抓取軌跡,3 個筆筒點位採集 24 條放置軌跡。
- 按指定順序抓取積木(紅、綠、藍)
- 端到端方法:採集 10 條軌跡,固定積木位置,按順序抓取紅色、綠色、藍色積木。
- 所提方法:為匹配端到端資料量,分別採集 10 條抓取紅色、綠色、藍色積木軌跡,共 30 條。
任務定義與視覺化
5.3 實驗結果
前三個任務用於驗證所提方法在資料效率和操作效能上的表現,第四個任務則評估其新任務適應能力。為確保公平性,每種實驗設定均在 Octo 和 RDT-1B 上進行 10 次測試,對比端到端方法與所提方法(“Ours” 和 “Ours-plus”)。如表1所示,“End-To-End”:原始端到端 VLA 方法; “Ours”:保持資料分佈一致,但資料量更小; “Ours-plus”:保持資料量一致,但採集更多點位;“ID”:任務點位在訓練資料分佈內;“OOD”:任務點位超出訓練資料分佈。在第四個任務中,設定紅-綠-藍順序抓取積木為已知任務,並採集資料訓練模型。針對其他顏色順序的未知任務,直接呼叫已訓練的技能進行測試,以評估方法的泛化能力(見表 2)。結果分析如下:
Q1: 從表 1 可見,Octo 和 RDT-1B 在使用所提方法後,成功率與端到端方法相當甚至更高。在拿起瓶子並向杯中倒水任務中,OOD 測試成功率提升 20%,表明該方法在相同點位分佈下,減少資料需求同時提升效能。
Q2: 在相同資料量下,所提方法顯著提升成功率。例如,在拿起香蕉並放入盤子任務中,OOD 情況下成功率提高 40%,歸因於從更多點位採集資料,增強模型泛化能力。
Q3: 從表 2 可見,端到端方法僅適用於已知任務,無法泛化新任務,而所提方法能透過已有技能組合成功執行不同的新任務。
Q4: 表 1 和表 2 進一步驗證,所提方法在多種 VLA 模型上均提升資料效率、操作效能和新任務適應能力,適用於不同模型的泛化與最佳化。
表1:與原始端到端方法實驗結果對比
表2:與原始端到端方法方塊抓取任務實驗結果對比
團隊提出的一種基於三輪資料驅動的原子技能庫構建框架,旨在解決傳統端到端具身操作策略帶來的“資料爆炸”問題,為具身智慧產業應用提供創新解決方案。該框架具有廣泛價值,可用於提升物流倉儲、智慧製造、醫療輔助等領域的自動化水平。例如,在醫療輔助和服務機器人領域,它能夠增強自主互動能力,助力精準操作。希望此項工作能夠為行業提供重要啟示,促進學術界與產業界的深度合作,加速具身智慧技術的實際應用。