靈初智慧釋出端到端VLA模型Psi R0.5，僅需兩小時資料實現物品、場景全面泛化

机器之心發表於2025-03-03

原文網址 : https://www.jiqizhixin.com/articles/2025-03-03-9

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報導了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯絡報導。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

近日，Figure 釋出的端到端 VLA 具身大模型 Helix，採用分層架構同時實現高頻控制和高泛化能力，引起了業內廣泛關注。幾乎同期，中國具身智慧團隊靈初智慧釋出了基於強化學習的增強版分層架構端到端 VLA 模型 Psi R0.5，這距離靈初智慧團隊去年底釋出的 Psi R0 僅 2 個月。

本次釋出的新模型重大升級，對於複雜場景的泛化性、靈巧性、CoT、長程任務能力上均有顯著提升，同時完成泛化抓取訓練所需的資料量僅需 Helix 資料量的 0.4%！在全球範圍內實現了泛化靈巧操作與訓練效率的雙重領先。

此外，靈初智慧團隊連發四篇高質量論文，將團隊在高效實現泛化抓取、堆疊場景的物品檢索、利用外部環境配合抓取、VLA 安全對齊方面的最新成果悉數公開，展現了中國團隊在具身智慧領域的強悍戰鬥力。

^{Psi R0.5 路徑演進圖}

DexGraspVLA

僅需兩小時靈巧手抓取資料

輕鬆實現物品、燈光、場景泛化

並實現真正 CoT

DexGraspVLA 是首個用於靈巧手通用抓取的 VLA（Vision-Language-Action）框架，透過少量的訓練，即刻在多變環境下智慧湧現靈巧操作能力，能夠像人類一樣快速、準確地拾取各種物品。

DexGraspVLA 是一個融合視覺，語言和動作的層次化框架：

High-level Planner：高層規劃由預訓練的大型視覺語言模型（VLM）實現，可理解多樣化指令、自主決定抓取策略。
Low-level Controller：低層擴散策略透過實時視覺反饋，閉環掌握目標物體，智慧湧現出靈巧操作能力。

整個框架的核心在於將多樣化的影像輸入資料透過現有的 Foundation Model 轉換成 Domain-invariance 的表徵，並端到端地訓練下層控制模型。

^{DexGraspVLA 框架圖}

從實驗結果看，靈初智慧僅使用了約 2 小時的靈巧手抓取資料（2094 條軌跡 × 3.5 秒 / 條 ÷ 60 秒 / 分鐘 ÷ 60 分鐘 / 小時 ≈ 2 小時），泛化到上千種不同物體，位置，堆疊，燈光，背景下成功抓取，而這個資料量僅僅是 Figure 的 0.4%，資料利用效率提高 250 倍！

同時，DexGraspVLA 相比現有方案還具有幾項優勢：

根據語言指令分辨出目標物體，處理堆疊場景下的目標物體的檢索並抓取
抓取速度快（所有影片無加速，同類工作中節拍較快），閉環姿態矯正與重抓取能力（ReGrasp）
大腦具有 CoT 長程推理能力：自主推理抓取順序並將所有物體依次抓取

靈初智慧釋出端到端VLA模型Psi R0.5，僅需兩小時資料實現物品、場景全面泛化

^{DexGraspVLA 可以快速抓取不同形狀、大小、材質、軟硬度物品}

DexGraspVLA 展現出對光照變化、背景干擾和物體姿態的強大魯棒性和泛化性，讓機器人的靈巧抓取達到人類級別。靈初智慧釋出端到端VLA模型Psi R0.5，僅需兩小時資料實現物品、場景全面泛化

^{DexGraspVLA 在極端變化的燈光、桌面下仍然保持魯棒性}

基於預訓練的大模型：使用自然語言與人類互動，具有高智慧的長程推理能力，能夠自主理解人類話語並推理任務。因此可以一次設定多個抓取目標，透過 CoT 實現複雜流程下的自動分揀或清理。靈初智慧釋出端到端VLA模型Psi R0.5，僅需兩小時資料實現物品、場景全面泛化

^{DexGraspVLA 可以透過 Planner 自行推理決策完成長程任務，實現 CoT}

DexGraspVLA 仍然會自動分析當前姿態偏差，透過細微調整腕關節和手部角度重新嘗試抓取，實現非常魯棒且高效的抓取能力，達到極強的泛化能力。靈初智慧釋出端到端VLA模型Psi R0.5，僅需兩小時資料實現物品、場景全面泛化

^{DexGraspVLA 實現完全閉環控制、實時高頻糾錯}

網站：https://dexgraspvla.github.io/
論文：https://arxiv.org/abs/2502.20900
程式碼：https://github.com/Psi-Robot/DexGraspVLA

Retrieval Dexterity

堆疊場景中的高效物體檢索策略

強化學習底層驅動，簡單 reward 湧現複雜動作

在大多數實際場景中，物品往往以無規則、堆疊的方式擺放。傳統方法要求機器人逐件搬開遮擋物，不僅耗時，還對機器人自身抓取能力提出了很高的要求。

為了解決這一難題，靈初智慧開發了一套基於強化學習的物體檢索策略 ——Retrieval Dexterity，解決了堆疊場景中物體檢索識別效率低的問題。

Retrieval Dexterity 系統中未用真機資料，靈初團隊沒有采用真機資料進行訓練，而是直接在模擬環境中透過強化學習進行訓練。透過在模擬環境中大規模生成複雜的堆疊場景，訓練模型直至湧現出合適的檢索操作，隨後再將這些操作零樣本遷移至現實機器人和複雜環境中。

^{Retrieval Dexterity 框架圖}

從雜亂堆疊物體中快速取出目標物體

在超過 10 種不同形狀、大小的生活物品測試中，Retrieval Dexterity 展現出了優秀的效能，不僅能夠高效完成訓練過的物體的檢索任務，還能將檢索能力泛化到未見過的新物體上。靈初智慧釋出端到端VLA模型Psi R0.5，僅需兩小時資料實現物品、場景全面泛化

^{Retrieval Dexterity 可以快速在堆疊物品中找到並抓取目標物品}

效率對比傳統方法提升明顯

與人為設定的動作相比，Retrieval Dexterity 在所有場景中平均減少了 38% 的操作步驟。與模擬的 “將所有物體抓起來並放開” 相比，該方法更是平均減少了 90% 的步驟數量。這種效率提升主要得益於多指靈巧手能夠直接與遮擋物進行互動，並隨時移動它們，而不需要逐個移除。靈初智慧釋出端到端VLA模型Psi R0.5，僅需兩小時資料實現物品、場景全面泛化

^{相較於傳統方法，靈初的 Retrieval Dexterity 的步驟更少，效率更高}

論文：https://arxiv.org/abs/2502.18423
網站：https://changwinde.github.io/RetrDex/

ExDex：借力外部環境

抓取 “不可能” 物體

外部靈巧性解決物品超過機器人末端執行器的最大開度問題

當物體的底面尺寸超過機器人末端執行器的最大開度時，傳統方法往往無法直接對物體進行抓取，這種情況在商場等商業場景尤為常見。為了解決這一難題，靈初智慧推出了 ExDex—— 一種基於外部靈巧性（extrinsic dexterity）抓取的創新解決方案。

ExDex 能夠利用環境特徵進行非夾持式操作，憑藉多指靈巧手的靈活性和操作能力，實現更豐富的環境互動。

強化學習帶來超越人類遙操作水平的靈巧操作 靈初智慧釋出端到端VLA模型Psi R0.5，僅需兩小時資料實現物品、場景全面泛化

^{機器人透過將物品推到牆角藉助外力拿起單手無法直接抓取的物品}

透過強化學習，ExDex 湧現出自主制定策略的能力，藉助周圍環境抓取那些無法直接抓取的物體。例如，機器人可以將物體先推到桌面邊緣或牆體邊緣，再利用這些環境特徵完成抓取任務。這種操作透過傳統的遙操作方式幾乎無法實現，充分體現了強化學習的強大優勢。

在對數十種不同家居物品的大量實驗中，ExDex 驗證了其優越的效能和對新物體的泛化能力，併成功將模擬訓練的策略無縫遷移到真實機器人中，實現了從模擬到現實的高效過渡。

網站：https://tangty11.github.io/ExDex/

SafeVLA：人機安全互動的 “守護神”

當下，具身智慧機器人頻繁出圈，從春晚跳舞的 Unitree 人形機器人，到波蘭街頭遛機器狗的新奇場景，讓人看到人機互動的無限可能，但安全問題也不容忽視。視覺 - 語言 - 行動模型（VLAs）在革新機器人技術時，也藏著安全隱患。

^{左圖呈現了傳統 VLA 模型在抓取任務中的三種典型不安全行為：1）對無關物體的嚴重損壞，2）目標識別錯誤導致危險物體的誤用，以及 3）執行指令時與危險物體發生互動。右圖透過導航路徑示例，進一步展示了傳統 VLA 在導航過程中的三種不安全行為}

本週，北京大學 PAIR - Lab 團隊攜手靈初智慧重磅推出了具身安全模型 SafeVLA，透過安全對齊，讓機器人在複雜場景安全高效執行任務，在對抗干擾場景中魯棒性極高。

SafeVLA 把 “以人為本” 刻進 DNA，不像傳統機器人只盯著任務完成，它把人類安全放在首位。技術上，引入約束馬爾可夫決策過程（CMDP）正規化，把現實安全約束融入模擬環境大規模取樣。SafeVLA 在安全性和任務執行方面均取得突破性進展，分別提升 83.58% 和 3.85%，充分證明了其在平衡安全與效率方面的卓越能力。

^{傳統 VLA 模型完成任務過程中的高危行為}

團隊開發全新模擬環境 Safety - CHORES，整合安全約束功能，支援使用者自定義規則，程式碼還完全開源，直接給全球研究者和開發者送福利。而且，SafeVLA 在 12 個分佈外（OOD）實驗裡，面對光照、材質變化和複雜環境擾動，始終穩定發揮，實力碾壓其他模型。

^{SafeVLA 在正常測試集和 OOD 測試集上的比較，其在 OOD 環境下依然保持良好安全性和表現}

網站：https://sites.google.com/view/pku-safevla

靈初智慧釋出端到端VLA模型Psi R0.5，僅需兩小時資料實現物品、場景全面泛化

相關文章