
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

High-level Planner:高層規劃由預訓練的大型視覺語言模型(VLM)實現,可理解多樣化指令、自主決定抓取策略。
Low-level Controller:低層擴散策略透過實時視覺反饋,閉環掌握目標物體,智慧湧現出靈巧操作能力。

根據語言指令分辨出目標物體,處理堆疊場景下的目標物體的檢索並抓取
抓取速度快(所有影片無加速,同類工作中節拍較快),閉環姿態矯正與重抓取能力(ReGrasp)
大腦具有 CoT 長程推理能力:自主推理抓取順序並將所有物體依次抓取




網站:https://dexgraspvla.github.io/
論文:https://arxiv.org/abs/2502.20900
程式碼:https://github.com/Psi-Robot/DexGraspVLA




論文:https://arxiv.org/abs/2502.18423
網站:https://changwinde.github.io/RetrDex/

網站:https://tangty11.github.io/ExDex/



網站:https://sites.google.com/view/pku-safevla