ICLR 2025 | 機器人安燈泡、切東西都能拿捏,可操控軌跡跟蹤的DexTrack來了

机器之心發表於2025-03-02

圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


現實世界的機器人距離科幻小說裡的機器人世界還有多遠?通用靈巧操控何時才能實現?朝著這一偉大的目標,研究通用靈巧操控軌跡跟蹤的 DexTrack 便應用而生。ICLR 2025 | 機器人安燈泡、切東西都能拿捏,可操控軌跡跟蹤的DexTrack來了
  • 論文地址:https://arxiv.org/abs/2502.09614

  • 程式碼地址:https://github.com/Meowuu7/DexTrack

  • 專案網站:https://meowuu7.github.io/DexTrack/

  • YouTube 影片:https://youtu.be/zru1Z-DaiWE

1. 動機

賦予機器人像人一樣的靈巧操控技能是通往未來終極具身智慧的重要一步。如何讓一個具身智慧體獲得廣泛的靈巧操控技能一直是具身智慧領域的一個重要問題。靈巧操控任務複雜且多樣,之前很多工作大多專注在特定技能的獲取(如抓取或者在手裡轉動)。他們大多需要對單獨的任務進行針對性的設計,例如專門對某一種特定的任務設計對應的獎勵函式,之後根據這樣的獎勵函式訓練策略網路來解決對應的問題。這些難以遷移到不一樣的任務上的 reward 設計是通往通用操控技能的一個阻力。

所以為了實現通用的靈巧操控技能,我們首先需要任務表示層面的統一。此外,靈巧操控技能涉及到複雜的和隨時間變化的手 - 物接觸,複雜的物體運動軌跡。再考慮到對使用一個操控策略解決不同型別的操控任務的需求,得到一個通用的靈巧操控智慧體對演算法本身的設計也提出了很大的挑戰。

為了實現這一目標,我們將運動規劃以及控制的問題拆解開來,將不同種的靈巧操控技能重新統一到一個軌跡跟蹤控制的框架下,進一步藉助於大量的人類操控物體的資料作為跟蹤的目標,透過學習一個通用的軌跡跟蹤控制器,來一定程度上解決這個問題(圖 1)。
圖片
圖 1:問題的拆解和對通用軌跡跟蹤器的期待

2. DexTrack:通用軌跡跟蹤器的學習

2.1 統一的軌跡跟蹤任務表示

我們將不同型別的操控任務統一到一個軌跡跟蹤任務來完成任務表示層面的統一。在每個時刻,給定機器手和物體當前的狀態,以及下一步想要達到的狀態,軌跡跟蹤控制器的任務是給出機器手當前應該執行的動作,從而透過執行該動作,機器手可以運動且和物體進行互動,使得機器手以及物體實際達到的狀態與下一步想要達到的狀態相吻合。這樣的表示方式對不同的操控任務是比較適配的。對一個任務,比如將物體轉動一個角度,我們可以先規劃出來物體的運動軌跡,之後將這個任務轉化為跟蹤物體運動軌跡的軌跡跟蹤任務。
圖片
圖 2:軌跡跟蹤器的輸入和輸出

2.2 通用軌跡跟蹤器的學習方法

一個通用的軌跡跟蹤需要可以響應各種各樣的軌跡跟蹤命令。這一多樣的軌跡空間對該軌跡跟蹤器的學習提出了更高的挑戰。我們提出了一個將 RL 和 IL 結合起來的方法,在 RL 訓練的同時引入監督訊號來降低 policy 學習的難度。透過交替地使用高質量的軌跡跟蹤資料輔助通用軌跡跟蹤控制器的學習,以及藉助通用軌跡跟蹤器來提高單一軌跡跟蹤演示的質量,我們可以逐漸得到一個強大的可以跟蹤各種各樣軌跡的控制器(圖 3)。
圖片
圖 3:通用軌跡跟蹤器的訓練方法

2.2.1 軌跡跟蹤任務獎勵函式

獎勵函式主要由三部分組成:1)物體軌跡跟蹤獎勵,2)手部軌跡跟蹤獎勵,3)手和物體的親密度獎勵。

2.2.2 透過 RL 和高質量跟蹤演示資料來訓練通用軌跡跟蹤器

透過在 policy 的訓練過程中引入額外的監督資訊來降低這一通用軌跡跟蹤器學習的難度。

2.2.3 藉助通用軌跡跟蹤器來提高單一軌跡跟蹤演示的質量

我們設計了兩個策略來提高單一軌跡跟蹤演示的質量,1)藉助通用軌跡跟蹤器來初始化單一軌跡跟蹤策略的學習,2) 藉助 homotopy optimization 的方式,透過解決一系列的最佳化任務來降低特定軌跡跟蹤任務最佳化的難度(圖 4)。
圖片
圖 4:Homotopy Optimization

3. 結果

我們的方法在極具挑戰性的任務上達到了令人矚目的效果。同時我們也進行了大量的真機實驗來驗證它在真實世界中的可行性。我們的機器手可以轉動並嘗試 “安裝” 一個燈泡。在 functional tool using 方面,我們也可以在手中調整一個刀使得刀可以刀刃向下來切東西,可以在手中轉動一個錘子,並使用正確的朝向來錘東西。因為獲得這些動作的人手軌跡比較困難,我們透過只跟蹤物體軌跡來實現這些效果。這也證明了我們的方法可以擴充到稀疏物體軌跡跟蹤的應用上。ICLR 2025 | 機器人安燈泡、切東西都能拿捏,可操控軌跡跟蹤的DexTrack來了
圖 5:Real World 結果展示(Part 1)

以下是更多的真機實驗展示。ICLR 2025 | 機器人安燈泡、切東西都能拿捏,可操控軌跡跟蹤的DexTrack來了
圖 6:Real World 結果展示(Part 2)

在 simulator 中,我們對這些包含複雜的物體的運動軌跡,精巧的微轉,以及非常細的難以抓起來的物體仍然是有效的。ICLR 2025 | 機器人安燈泡、切東西都能拿捏,可操控軌跡跟蹤的DexTrack來了
圖 7:Isaac Gym 中的不同方法的比較

此外,homotopy optimization 可以有效地提高軌跡跟蹤的效果。ICLR 2025 | 機器人安燈泡、切東西都能拿捏,可操控軌跡跟蹤的DexTrack來了
圖 8:Homotopy Optimization 的有效性

我們的研究對運動軌跡中的噪聲比較魯棒,也可以泛化到從來沒有見過的物體的種類以及運動的類別上。ICLR 2025 | 機器人安燈泡、切東西都能拿捏,可操控軌跡跟蹤的DexTrack來了
圖 9:Robustness

更多的結果:ICLR 2025 | 機器人安燈泡、切東西都能拿捏,可操控軌跡跟蹤的DexTrack來了
圖 10:更多的結果

開原始碼:https://github.com/Meowuu7/DexTrack

更多的動畫演示和相關資訊可見專案網站:https://meowuu7.github.io/DexTrack/

相關文章