概述:機器人廣泛應用於工業生產的加工和裝配等各個領域。傳統的工業機器人需要透過複雜的標定和預程式設計來完成任務。近年來,自動化水平的發展對機器人在不確定環境下執行復雜任務提出了更高的要求。因而機器人機械手的靈巧性受到更多的關注。本課題旨在工業機器人的靈巧性研究。這其中包括
1. 工業機械手/靈巧手的智慧實時抓取;
2. 靈巧手的手內操控;
3. 工業機器人強化學習與智慧裝配。
本文簡述3.
3. 工業機器人強化學習與智慧裝配
3.1. 簡介
工業機器人在裝配線中有著廣泛用途,如汽車零件裝配,線纜組裝等等。傳統裝配線中機器人按照預先設定的軌跡完成裝配任務。這種裝配模式耗費大量的人力標定和預程式設計成本,並且難以對環境不確定性魯棒。
圖3.1.1. (左)機器人線纜裝配。(右)樂高積木機器人。由於標定的不確定性,樂高積木在插入過程中需要適應各種不確定性。
近年來深度各類學習演算法例如監督學習,強化學習開始應用到裝配中。監督學習通常需要透過人類示教為學習演算法提供大量訓練資料,因而效率低下時間成本很高。另一方面,強化學習透過探索環境獲得大量資料和對應的獎勵,進而摸索出最優裝配策略。然而強化學習需要大量資料堆積,難以在實際機器人上獲得高效率的探索。近年來有學者採用了最佳化控制和監督學習相結合的方式,該演算法從資料中抽象模型,進而利用最佳化演算法計算最優路徑,最優路徑被用來訓練深度學習網路,如圖3.1.2.(右)所示。這種演算法極大提高的學習效率,但引數較多,穩定性較差,難以用於工業機器人裝配。
圖3.1.2. (左)原始的深度確定型策略梯度(Deep Deterministic Policy Gradient)演算法[1]。(右)引導性策略搜尋(Guided Policy Search)[2]。DDPG效率較低,而GPS在高剛度系統中穩定性較差。
3.2. 引導型DDPG
本課題提出了一種名為Guided-DDPG的“引導型策略搜尋”演算法,將傳統的策略搜尋演算法效率提升數倍。該演算法已應用在工業機械臂的樂高積木裝配中。演算法的思想如圖3.2.1.所示。在初始探索階段,軌跡最佳化(半導師)為DDPG提供初始引導,避免DDPG探索過大區域造成資料浪費。隨著學習的進行,DDPG逐步建立起評價機制取代軌跡最佳化。該成果已提交至國際機器人與控制會議(ICRA2019)。
圖3.2.1. 引導型DDPG(Guided-DDPG)演算法。引導型DDPG使用了軌跡最佳化作為半導師,引導DDPG探索合適的區域,避免資料浪費。軌跡規劃本身難以穩定的完成任務,但是可以起到引導DDPG的作用。逐步建立起的Q-網路將逐步超越半導師,並完成任務。
3.3. 結果比較
該演算法的有效性透過模擬和實驗驗證。在模擬階段,我們使用了樂高積木裝配和U型關節裝配,如圖3.3.1.所示。
圖3.3.1. 該演算法的模擬驗證。(上)U型關節裝配,(下)樂高積木裝配。
該演算法與其他訓練效率的比較如圖3.3.2.所示。本文提出的演算法可以在1500次嘗試以內穩定地學習到裝配技能,而傳統的DDPG需要7000次以上。與原始DDPG相比,該演算法在時間效率上提高55.1%,在資料效率上提高了78.6%,如下表所示。
圖3.3.2. 不同演算法的學習曲線。(左)樂高積木裝配,(右)U型關節裝配。本文提出的演算法可以在1500次嘗試以內穩定地學習到裝配技能,而傳統的DDPG需要7000次以上。
該演算法學習到的裝配策略可以泛化到其他相似的任務上,影片如下。
最後,我們透過初步的實驗驗證了該演算法的有效性。我們採用UR5機器人和Robotiq力矩感測器感知反饋資訊,在機器人上訓練引導型DDPG 1.5小時,如圖3.3.3所示。
圖3.3.3. 該演算法的實驗驗證。(左)實驗裝置,(右)演算法測試截圖。引導型DDPG可以在1.5小時內學習到魯棒的裝配策略,而原始的DDPG不能找到可用的裝配策略。
[1]: Lillicrap, Timothy P., et al. "Continuous control with deep reinforcement learning." arXiv preprint arXiv:1509.02971(2015).
[2]: Levine, Sergey, et al. "End-to-end training of deep visuomotor policies." The Journal of Machine Learning Research 17.1 (2016): 1334-1373.
作者簡介:
範永祥,2010年至2014年就讀於中國科學技術大學機械設定製造及其自動化。2014年進入加州大學伯克利分校攻讀機械工程系自動化專業博士,主攻工業機器人的智慧與靈巧性研究,其研究領域涵蓋抓取(grasping),靈巧操控(dexterous manipulation)以及裝配(assembly)。在國際會議上發表多篇論文,其中grasp planning for customized grippers by iterative surface fitting獲得2018年國際自動化科學與工程會議(CASE2018)最佳應用論文,robust dexterous manipulation under object dynamics uncertainties獲得2017年國際先進智慧電子會議(AIM2017)最佳論文提名。
(本系列完)