一手訓練,多手應用:國防科大提出靈巧手抓取策略遷移新方案

机器之心發表於2024-10-01

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文來自國防科技大學智慧圖形計算團隊,主要研究方向包括智慧圖形學、具身智慧、機器學習、三維視覺等。團隊擁有多名國家級人才,在國際上較早開展了資料驅動三維感知、建模與互動工作,發表TOG/TPAMI/TVCG等A類論文200餘篇,獲得湖南省自然科學一等獎、中國計算機學會自然科學一等獎、軍隊科技進步獎、軍隊教學成果獎、湖南省優秀研究生導師團隊等。

在機器人研究領域,抓取任務始終是機器人操作中的一個關鍵問題。這項任務的核心目標是控制機械手移動到合適位置,並完成對物體的抓取。近年來,基於學習的方法在提高對不同物體的抓取的泛化能力上取得了顯著進展,但針對機械手本身,尤其是複雜的靈巧手(多指機械手)之間的泛化能力仍然缺乏深入研究。由於靈巧手在不同形態和幾何結構上存在顯著差異,抓取策略的跨手轉移一直存在挑戰。

為了解決這個問題,來自國防科技大學和深圳大學的研究者提出了一種新穎的策略學習方法。透過利用對不同靈巧手的一致性表徵設計,以及分離靈巧手高層運動生成和低層關節控制,該方法實現了將在一個靈巧手上訓練的策略以低代價遷移到其他靈巧手,並同時保持抓取效能和對物體的泛化性。

圖片

  • 論文標題:Learning Cross-hand Policies of High-DOF Reaching and Grasping
  • 論文地址:https://arxiv.org/abs/2404.09150
  • 專案主頁:https://qijinshe.github.io/IBS-Retargeting.github.io/

該工作的創新點主要有以下部分:

運動和控制分離的層次化框架:將高層次的抓取運動預測與低層次的關節控制分離開來,通用的策略負責規劃靈巧手整體的運動,專用的控制模組負責將運動轉化為對特定機械手關節的控制,這一設計提高了模型在多種靈巧手上的適應性;

手無關的狀態和動作表示:提出了一種通用的表示方法,這種表示結合了靈巧手間通用的關鍵點以及側重刻畫手和場景互動的幾何特徵,分別避免了靈巧手結構和幾何差異對策略泛化帶來的影響,使其能夠在不同的機械手之間轉移,無需針對每個機械手單獨訓練策略模型;

基於 Transformer 的策略網路結構設計:透過注意力機制,模型能夠在各種靈巧手上整合不同手指和表示的資訊,並使其適用於不同手指數量的靈巧手,進一步提高了抓取策略的泛化能力。

相關工作

靜態抓取生成:現有的抓取生成技術可以分為分析法和資料驅動法。分析法透過取樣或最佳化技術尋找確保物理穩定性的抓取姿態,儘管適用於不同抓手的抓取規劃,但執行速度較慢 [1]。資料驅動法直接根據物體特徵預測抓取姿態,執行速度快,但是缺乏對機械手本身的泛化性。為了跨越不同機械手,一些改進方法透過預測接觸點並結合逆運動學 [2] 或強化學習 [3] 生成抓取姿態, 其他方法如 AdaGrasp [4] 和 GenDexGrasp [5] 則透過接觸圖(contact map)進行抓取預測。然而,這些方法主要關注最終抓取姿態,缺少對整個抓取過程的規劃調整。

運動重定向:運動重定向用於將一個實體的動作轉移到另一個實體,可分為基於學習的方法和啟發式方法。學習法將其視為序列生成問題 [6][7],啟發式方法透過匹配關節或關鍵點計算目標機器人的姿態 [8]。在抓取任務中,已有一些方法將人手動作實時轉移到靈巧手上來收集靈巧手的運動軌跡 [9]。然而,由於動態環境中的誤差,重定向動作的可復現性仍然是挑戰,因此通常僅用作策略訓練中的資料[10]。

動態策略轉移:一些研究透過將機器人形態結構資訊整合到策略中,實現了機器人步態控制的策略轉移 [11]。用圖神經網路 [12] 或 Transformer [13] 來編碼機器人元件之間的連線和關係被驗證是提高策略對機器人本體結構泛化能力的有效方法。然而,在靈巧手抓取這種需要和場景產生大量接觸的任務中,機器人的幾何差異以及和場景互動關係也需要被充分考慮以實現策略遷移。

方法描述

該工作提出了一種可以在不同靈巧手間遷移的抓取策略及其學習方法,總體框架如圖所示。整個方法分為兩個關鍵階段:基於通用的幾何和結構無關的狀態動作表示的抓取策略模型,以及面向特定靈巧手的自適應模型。前者負責把控靈巧手總體的運動生成,而後者則將相應的運動轉化為靈巧手實時的關節動態變化。

圖片

圖 1 跨手遷移的抓取策略學習的整體框架圖

為了使得學習的策略模型可以在不同靈巧手之間實現泛化,該工作設計了一套不同靈巧手普適的狀態和動作表徵。它使用了靈巧手上的語義關鍵點作為表徵,來克服靈巧手的結構差異。這些語義關鍵點不僅可以統一指代不同靈巧手上具有相同語義的部分(比如指尖),也可以很好地概括靈巧手手指的運動資訊,因此可以將關鍵點的位置資訊作為策略的狀態表示,而將其的位置變化作為策略的動作表示。此外,為了克服不用靈巧手的幾何差異對策略的影響,該工作使用了互動二分曲面(Interaction Bisector Surface)[15] 這種特殊幾何表示作為策略的狀態表示的補充。這種表示被定義成到空間中到兩個物體距離相等的平面,在該工作中則用來表示抓手和場景之間的等距離面。這種表示被驗證可以提升抓取策略對靈巧手幾何的魯棒性。

在網路的實現上,該工作設計了一個基於 Transformer 網路結構的通用策略模型。它透過多層自注意力機制來融合不同輸入特徵,並整合各手指之間的資訊。這種設計使得學習的策略可以適用不同數量手指的靈巧手,進一步提升了泛化性。在下層的靈巧手關節控制上,該工作用輕量的多層感知機網路構建了特定手適配模型,負責將關鍵點位移對映到抓取器的關節變化,確保不同抓取器都能夠被統一的高層策略模型控制。

模型訓練分為兩個階段:聯合訓練和遷移訓練,以確保模型在不同抓取器上的通用性和效能。在聯合訓練階段,策略模型和特定手適配模型會在一個靈巧手上同時訓練,但它們各自獨立最佳化。策略模型的訓練採用強化學習方法,透過獎勵函式最佳化抓取成功率和避免碰撞的能力。而適應模型則透過自監督的迴圈損失進行訓練,確保關鍵點位移能夠精確對映到關節角度變化同時避免自碰撞。

至於遷移訓練,其重點是將先前訓練的策略模型應用到新的靈巧手上。在這個過程中,策略模型保持固定,只對新的靈巧手重新訓練特定手適配模型,以適配其不同的關節結構。由於適應模型較為輕量且可以透過自監督方式訓練,這個過程可以被快速高效的完成。

透過這兩階段的訓練,模型不僅具備了跨靈巧手的通用能力,還能在新靈巧手上迅速適應並執行高精度抓取任務。

實驗結果

該工作對所提出的框架和設計進行了廣泛的實驗驗證,並評估了其在不同抓取器和物體上的效能。實驗使用了多種靈巧抓取器,並在 YCB 物體集和 ContactPose 物體集上測試了詳細實驗,圖 2 展示了該工作方法在不同靈巧手以及不同物體上抓取的可視結果,證明了方法的泛化性。

圖片

圖 2. 跨手遷移的抓取策略在不同靈巧手和物體上的泛化效果

定量測試方面,該工作首先測試了方法中的主要設計對靈巧手抓取策略效能和泛化性的影響,包括兩階段分離的策略設計,通用的表徵設計,基於 transform 的網路結構設計。實驗結果表明這些設計可以幫助策略實現不同靈巧手之間的,高效能的策略遷移。

圖片

表 1. 跨手遷移的抓取策略的消融實驗

為了進一步證明該工作方法的效能優勢,該工作和一些基於現有方案的基線方法進行了進一步的效能對比,如表 2 所示。這些方法包括使用不同特徵(關節匹配和關鍵點匹配)的基於運動重定向的方法以及對策略輸入輸出進行對映的方法,實驗結果證明了該工作方法的優越性。

圖片

表 2. 跨手遷移的抓取策略和基線方法的對比實驗

參考文獻:

1.Turpin, D., Wang, L., Heiden, E., Chen, Y.C., Macklin, M., Tsogkas, S., Dickinson, S., Garg, A.: Grasp’d: Differentiable contact-rich grasp synthesis for multi-fingered hands. In: Computer Vision–ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23–27, 2022, Proceedings, Part VI. pp. 201–221. Springer (2022)

2.Shao, L., Ferreira, F., Jorda, M., Nambiar, V., Luo, J., Solowjow, E., Ojea, J.A., Khatib, O., Bohg, J.: Unigrasp: Learning a unified model to grasp with multi-fingered robotic hands. IEEE Robotics and Automation Letters 5 (2), 2286–2293 (2020)

3.Li, K., Baron, N., Zhang, X., Rojas, N.: Efficientgrasp: A unified data-efficient learning to grasp method for multi-fingered robot hands. IEEE Robotics and Automation Letters 7 (4), 8619–8626 (2022)

4.Xu, Z., Qi, B., Agrawal, S., Song, S.: Adagrasp: Learning an adaptive gripper-aware grasping policy. In: 2021 IEEE International Conference on Robotics and Automation (ICRA). pp. 4620–4626. IEEE (2021)

5.Li, P., Liu, T., Li, Y., Geng, Y., Zhu, Y., Yang, Y., Huang, S.: Gendexgrasp: Generalizable dexterous grasping. In: 2022 International Conference on Robotics and Automation (ICRA). pp. 4620–4626. IEEE (2022)

6.Aberman, K., Li, P., Lischinski, D., Sorkine-Hornung, O., Cohen-Or, D., Chen, B.: Skeleton-aware networks for deep motion retargeting. ACM Transactions on Graphics (TOG) 39 (4), 62–1 (2020)

7.Villegas, R., Yang, J., Ceylan, D., Lee, H.: Neural kinematic networks for unsupervised motion retargetting. In: Proceedings of the IEEE conference on computer vision and pattern recognition. pp. 8639–8648 (2018)

8.Lee, J., Shin, S.Y.: A hierarchical approach to interactive motion editing for human-like figures. In: Proceedings of the 26th annual conference on Computer graphics and interactive techniques. pp. 39–48 (1999)

9.Handa, A., Van Wyk, K., Yang, W., Liang, J., Chao, Y.W., Wan, Q., Birchfield, S., Ratliff, N., Fox, D.: Dexpilot: Vision-based teleoperation of dexterous robotic hand-arm system. In: 2020 IEEE International Conference on Robotics and Automation (ICRA). pp. 9164–9170. IEEE (2020)

10.Qin, Y., Su, H., Wang, X.: From one hand to multiple hands: Imitation learning for dexterous manipulation from single-camera teleoperation. IEEE Robotics and Automation Letters 7 (4), 10873–10881 (2022)

11.Huang, W., Mordatch, I., Pathak, D.: One policy to control them all: Shared modular policies for agent-agnostic control. In: International Conference on Machine Learning. pp. 4455–4464. PMLR (2020)

12.Scarselli, F., Gori, M., Tsoi, A.C., Hagenbuchner, M., Monfardini, G.: The graph neural network model. IEEE transactions on neural networks 20 (1), 61–80 (2008)

13.Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, Ł., Polosukhin, I.: Attention is all you need. Advances in neural information processing systems 30 (2017)

14.Wang, T., Liao, R., Ba, J., Fidler, S.: Nervenet: Learning structured policy with graph neural networks. In: Proceedings of the International Conference on Learning Representations, Vancouver, BC, Canada. vol. 30 (2018)

15.Zhao, X., Wang, H., Komura, T.: Indexing 3d scenes using the interaction bisector surface. ACM Transactions on Graphics (TOG) 33 (3), 1–14 (2014)

相關文章