學習靈巧的手部操作,強化學習賦能機械臂

機器之心發表於2019-04-18

論文標題:Learning Dexterous In-Hand Manipulation學習靈巧的手部操作,強化學習賦能機械臂

連結:https://arxiv.org/pdf/1808.00177.pdf學習靈巧的手部操作,強化學習賦能機械臂

圖1:一隻經過強化學習訓練的五指人形手,利用視覺感知將一個塊從初始配置操作到目標配置

摘要

我們通過強化學習(RL)學習靈巧的手部操作策略,這些策略可在物理“Shadow Dexterous Hand”上執行基於視覺的物件重定向。我們在模擬環境中進行訓練,此時我們會隨機設定系統的很多物理屬性,例如摩擦係數和物件的外觀。雖然完全在模擬的環境中進行訓練,但我們將策略轉移到了實體機器人上。我們的方法並不依賴任何人工示範,但很多我們在人為操縱中發現的行為會自然地出現,包括手指步態、多指協調和控制使用重力。我們使用與訓練OpenAI Five【43】時使用的相同分散式RL系統得出結果。我們還包括了一個結果視訊:https://youtu.be/jwSbzNHGflM.

1介紹

雖然對人來說,靈巧的操縱物件是一項基本的日常任務,但這對自主式機器人來說仍然具有挑戰性。現代機器人通常專為特定任務而設計,適用設定有限,而且大多無法使用複雜的末端執行器。相反,人可在各種環境下執行很多靈巧的操縱任務,這讓人手成為機器人操縱研究的靈感源泉。

學習靈巧的手部操作,強化學習賦能機械臂

圖2:系統概況。(a)我們使用具有隨機引數和外觀的大量分散模擬,收集關於控制策略和基於視覺的位姿估計器的資料。(b)控制策略根據分散式模擬觀察機器人狀態並取得獎勵,學習如何通過時間遞迴神經網路強化學習,將觀察結果反映到行動中。(c)基於視覺的位姿估計器呈現出從分散式模擬中收集到的場景,並學習如何使用卷積神經網路(CNN)(與控制策略分開訓練)根據物件的圖片預測其位姿。(d)為了應用到現實世界中,我們根據卷積神經網路(CNN)內的3個真實攝像機饋送預測物件的姿勢,使用3D運動捕捉系統測量機器人指尖位置,並將這些落實到控制策略中,預測機器人的動作。

Shadow Dexterous Hand【58】便是一種專為人類靈敏度設計的機器人手的例子;這種機器手有五根手指,每根手指有24°自由度。自2005年開始上市;然而,由於控制系統高度複雜,所以這種機器手並沒有得到廣泛應用。五指機器手的頂尖控制技術嚴重受限。之前的一些方法已經顯示出了前景良好的模擬手部操作結果,但並未被轉移到現實機器人應用中【5,40】。相反,由於這種複雜系統的建模難度較大,所以有些研究採用僅使用實體機器人【16, 67, 29, 30】進行訓練的方法。然而,由於物理試驗的速度非常慢,而且成本高昂,所以學習行為非常受限。

在本研究中,我們演示了進行手部操作的控制策略訓練方法,並在實體機器人上部署了控制戰略。由此產生的控制策略表現出了前所未有的靈巧性,並自然地發現了人類的抓握技巧,例如三腳架捏抓、稜柱形捏抓和尖端捏抓,並展現了大量接觸的動態行為,例如手指步態、多指協調、控制性應用重力,以及在物件上的平移和扭轉力的協調應用。我們的控制策略也可通過視覺感知物件的位姿——這是機器人的一個重要方面,因為機器人最終會離開受控的實驗室環境設定,到外界工作。

學習靈巧的手部操作,強化學習賦能機械臂

圖3:(左)“籠子”裡是機器人手、16臺PhaseSpace跟蹤攝像機和3臺Basler RGB攝像機。(右)描繪模擬環境

雖然訓練完全使用模擬器,與現實世界大大不同,但我們獲得了在實體機器人上表現良好的控制策略。我們將我們的轉移結果歸咎於(1)校準與模擬環境的廣泛隨機化和附加效應,(2)記憶強化控制策略,使機器人在執行中學習適應行為和隱式系統識別,以及(3)通過分散式強化學習來進行大規模訓練。方法概述詳見圖2。

本文結構如下。第2節提供了系統綜述,更加詳細地介紹了提議任務,並列出了硬體設定。第3節介紹了關於控制策略、環境隨機化,以及為了轉移而在模擬器中新增的附加效應的觀察。第4節簡要介紹了控制策略訓練程式和分散式RL系統。第5節介紹了視覺模型架構和訓練程式。最後,第6節介紹了在實體機器人上部署控制策略和視覺模型的定性結果和定量結果。

任務與系統概述

在本研究中,我們考慮了手動物件再定位的問題。我們將物件放在模擬機器人的手上。目標是手動進行物件再定位,實現所需目標配置。一旦達到(靠近)當前目標,便提供新目標,直至物件被最終放棄為止。我們使用兩個不同的物件,一個塊狀物件,一個八角形稜鏡。圖3描繪了我們的實體系統和我們的模擬環境。

2.1硬體

我們使用Shadow Dexterous Hand,這是一種具有24°自由度(DoF)的模擬機器人手,由20對激動劑-拮抗劑肌腱驅動。我們使用PhaseSpace運動捕捉系統,追蹤全部五個指尖的卡地座標位置。關於物件位姿,我們有兩種設定:一種使用PhaseSpace標記來跟蹤物件,另一種使用三臺Basler RGB相機進行基於視覺的位姿估計。這是因為我們的目標是最終取得一個在實驗室環境之外工作的系統,而基於視覺的系統能夠更好地應對現實世界。我們不使用機器人手嵌入式觸控感測器,僅通過關節感應進行低階相對位置控制。我們更新了低階控制器的目標,該控制器的執行頻率大約為1千赫,其相對位置可根據在大約12 赫茲執行時的控制策略估測。

關於硬體設定的更多細節,請檢視附錄B。

2.2模擬

我們使用MuJoCo物理引擎【64】模擬物理系統,同時使用學習靈巧的手部操作,強化學習賦能機械臂描繪訓練基於視覺的位姿估計器的圖片。我們的Shadow Dexterous Hand模型立足於OpenAI Gym機器人環境【49】中使用的模型,但為了更密切地與物理系統匹配,已通過校準進行改進(更多細節詳見附錄C.3)。

雖然我們進行了校準,但模擬仍只是接近物理設定。例如,我們的模型直接將扭矩應用到關節上,取代肌腱致動,同時使用剛性體接觸模型替換應變體接觸模型。在剛體模擬器中,很難或幾乎不可能模擬這些或其他可在現實世界中看到效應。這些差異造成了“現實差距”,進而導致無法很好地轉移模擬時不準確訓練的政策。

我們在附錄C.1中列出了模擬的其他細節。

學習靈巧的手部操作,強化學習賦能機械臂

可轉移的模擬結果

如上一節所述,我們的模擬大致接近現實世界。因此,我們面臨一個兩難局面:因為深層強化學習演算法需要數百萬個樣本,所以我們無法在實體機器人上進行訓練;相反,由於模擬環境和現實環境之間存在差距,所以僅在模擬環境中培訓會產生無法良好轉移的政策。為了克服模擬與現實的差距,我們將模擬的基本版本修改為一系列不同模擬,以促進轉移【54,62,45】。通過仔細選擇感測模式,隨機設定模擬環境的各個方面,我們可進行策略訓練,包括不太可能適應特定模擬環境,但能更成功的轉移到實體機器人上的策略。

3.1觀察結果

我們使用PhaseSpace標記,以及來自PhaseSpace標記或基於視覺的位姿估計器,給出指尖控制策略的觀察結果。雖然Shadow Dexterous Hand含有很多內建感測器,但因為受限於依賴狀態的噪聲,很難在模擬器中進行模擬,所以我們儘量避免將這些作為政策觀察結果。例如,指尖觸覺感受器可測量指尖內建氣球記憶體儲流體的壓力,其與應用在指尖上作用力有關,但也與很多混雜變數有關,包括大氣壓力、溫度以及觸頭的形狀和和交叉幾何結構。雖然確定模擬器內觸頭的存在很簡單,但很難模擬感測器數值的分佈。類似的考慮適用於通過霍爾效應感測器測量的連線角,即那些用在低階控制器中,但由於易受噪音影響且很難校準,所以政策未予以考慮的連線角。

3.2隨機化

根據之前關於域隨機化【54, 62, 45】的研究,我們隨機設定模擬環境的很多方面,以學習落實到現實應用中的政策和視覺模型。我們在下文中簡要介紹了隨機化的型別,而附錄C.2更詳細地討論了更多關於隨機化的資訊,並提供了超引數

觀察噪聲。為了更好了模擬我們期望在現實世界中體驗的噪聲類別,我們在策略觀察中新增了高斯噪聲。尤其,我們使用了各場景取樣一次的相關噪聲,以及根據各時間步進行取樣的不相關噪聲。

表1:物理引數隨機化的範圍

引數

比例因子範圍

附加項範圍

物件尺寸

物件和機器人鏈路體

表面摩擦係數

機器人運動副阻尼係數

驅動力增益(P術語)

統一(【0.95,1.05】)

統一(【0.5,1.5】)

統一(【0.7,1.3】)

loguniform(【0.3,3.0】)

統一(【0.75,1.5】)


連線限制

重力向量(各座標)


N(0,0.15))rad 

N(0,0.4))m/s2

物理現象。隨機化各場景開始時隨機設定物理引數,例如摩擦,並使這些引數保持不變。很多引數以模型校準期間發現的值為中心,以使模擬分佈更加貼近現實。表格1列出了隨機設定的所有物理引數

未模擬影響。實體機器人會經歷模擬並未建模的很多影響。為了解釋不完美的驅動,我們使用一個簡單的電機反衝模型,並在模擬進行應用之前引入動作延遲和動作噪聲。我們的運動捕捉設定有時會暫時丟失追蹤標記,通過在很短的模擬時間內凍結模擬標記位置(概率很低)進行模擬。通過凍結非常靠近其他標記或物件的模擬位置,我們也模擬了標記閉合。為了處理更多未模擬的動態,我們在物件上施加較小的隨機作用力。關於具體實施的細節,詳見附錄C.2。

視覺外觀隨機化。我們隨機設定了所描繪場景的以下方面:攝像機的位置和內在引數、光照條件、手和物體的姿勢,以及場景中所有物件的材質和紋理。圖4提供了關於隨機設定環境的一些例子。關於隨機設定屬性及其範圍的細節,詳見附錄C.2。

學習靈巧的手部操作,強化學習賦能機械臂

圖4:具有不同隨機設定視覺外觀的模擬。行與同一臺攝像機的影像對應,列與3臺獨立攝像機的影像對應,這些影像可同時輸入中央網路。

4從狀態中學習控制策略

4.1策略架構

在一個場景中,我們會進行很多隨機化設定,因此可通過記憶體擴大策略確定當前環境的屬性,並相應地調整其自身行為。例如,最初與環境相互交流的步驟可顯示物件的重量,或食指的移動速度。因此,我們將策略表示為有記憶體的遞迴神經網路,即LSTM 【25】,其具有在輸入和LSTM之間插入ReLU【41】啟用函式的附加隱藏層。

通過近端策略優化(PPO)【57】進行策略訓練。我們在附錄A中非常詳細地介紹了強化學習和PPO的背景知識。PPO需要訓練兩種網路——將觀察反應到行動中的政策網路,以及預測從給定狀態開始的未來獎勵折扣總額的價值網路。兩個網路的結構相同,但引數各不相同。由於訓練期間僅使用價值網路,我們使用不對稱的強化學習(Actor-Critic)【46】。不對稱的強化學習(Actor-Critic)【46】依賴於價值網路可訪問真實機器人系統3內不可用的資訊這一事實。因為需要推斷的資訊較少,這可簡化學習良好價值估計的問題。表2列出了兩個網路的輸入項列表。

學習靈巧的手部操作,強化學習賦能機械臂

4.2行動和獎勵

策略行動與當前的理想關節角度對應5(例如,使關節旋轉10度)雖然PPO可處理連續和離散的行動空間,但我們注意到其更適用於離散行動空間。這可能是因為離散概率分佈比多變數高斯分佈更具表現力,或者因為動作的離散化使學習優勢函式更加簡單。我們將每個動作的座標離散到11個箱子內。

時間步t給出的獎勵是rt = dt-dt + 1,其中dt和dt + 1分別是轉換前後的理想物件取向與當前物件取向之間的旋轉角。每當達到目標時,我們會額外獎勵5,每當丟棄物件時,獎勵為-20(懲罰)。關於模擬環境的更多資訊,詳見附錄C.1.

4.3快速分散式訓練

我們使用與訓練OpenAI Five【43】相同的分散式PPO執行策略,未做任何修改。總體來說,我們發現PPO容易擴充套件,而且幾乎不需要進行超引數調整。我們的分散式培訓系統的架構如圖5所示。

學習靈巧的手部操作,強化學習賦能機械臂

圖5:我們在Rapid中的分散式訓練結構。藍色的正方形表示單獨的執行緒。工人機器隨機連線Redis伺服器,從中提取新的策略引數並向其傳送新體驗。優化器機為每個GPU設定了一個MPI程式,其中各程式都有一個專用的Redis伺服器。各程式都有一個Puller執行緒,可將從Redis中得到的新體驗帶入緩衝區。各程式還有一個Stager執行緒,可從緩衝區進行小批量取樣,並在GPU上進行分級。最後,各優化器執行緒使用GPU進行小批量優化,此後梯度跨執行緒累積,並將新引數傳送至Redis伺服器。

我們的研究採用了一個由384臺工人機器(每臺均裝配了16個CPU核心)構成的集合,通過在從隨機分配模擬樣本中運用當前版本的策略得出經驗。在各場景開始時,工人從優化器中下載最新的政策引數,產生訓練場景並將產生的場景返回優化器優化器和工人通過Redis記憶體資料儲存進行交流。我們使用多個Redis例項進行負載平衡,並在示例中隨機分配工人。本項設定每小時可產生大約2年的模擬經驗。

使用裝配了8件CPU的一臺機器進行優化。優化器執行緒推翻從Redis中取得的經驗,隨後分步將其輸入到相應的CPU記憶體中進行處理。計算本地梯度後,使用MPI平均所有執行緒,隨後我們使用MPI更新網路引數

我們使用的超引數可在附錄D.1中找到。

5根據視覺進行狀態估計

我們在上一章節介紹的策略將物件的位置設為輸入點,因此需要使用在實體機器人上安裝動作捕捉系統,用於追蹤物件。因為追蹤系統追蹤的物件僅在實驗室設定環境下可行,此時可在各物件上設定標記,所以不合需要。由於我們的最終目標是建立現實可用且可與任意物件相互作用的機器人,因此利用視覺感知是一個很重要方面。因此在本項研究中,我們希望僅根據視角推斷物件的位姿。與策略類似的是,我們僅使用來自模擬器的綜合資料訓練這種估算器。

5.1模型結構

為了解決歧義並提高穩健性,我們使用三個帶不同場景視角的RGB攝像機。記錄圖片通過卷積神經網路傳送,詳見圖6。網路預測物件的位置和取向。當在實體機器人上執行控制策略時,我們將位姿估算器的預測匯入策略中,其反過來可產生下一個動作。

學習靈巧的手部操作,強化學習賦能機械臂

5.2 訓練

我們在模擬器上實施訓練策略,直到收集一百萬個狀態。然後利用小批量梯度下降法,通過最小化歸一化預測和實際情況之間的均方誤差,來訓練視覺網路。對於每個小批量的處理,我們在將影像饋給網路之前隨機渲染其外觀。此外,我們還通過修改物體位姿來增加資料。我們使用2個GPU進行呈現,1個GPU執行網路並進行訓練。

附錄D.2提供了額外的訓練細節,附錄C.2提供了隨機化細節。­

結果

在本節中,我們將評估擬設的系統。首先,我們在實體機器人上部署該系統,評估機器人手部操作方塊和八角形稜鏡的效能。然後,關注系統的各個方面:我們對隨機化和具有記憶功能的策略的重要性進行了模型簡化測試,以便成功遷移。接下來,我們考慮所提出方法的樣本複雜度。最後,我們研究了所提出的視覺位姿估計器的效能,並證明僅使用合成影像就足以獲得良好的效能。

6.1 定性結果

在機器人部署和模擬過程中,我們注意到我們的策略很自然地展示了許多可在人類身上發現的抓取動作(見圖7)。而且,該策略還自然地發現了許多由機器人社群【37】描述的靈巧的手部操作對策,如手指旋轉、手指移動、多手指協調、重力控制使用以及對物體平移力和扭轉力的協調應用。值得注意的是,我們並沒有直接進行激勵:不使用任何人類演示,也不將任何先前程式碼編碼到獎勵函式中。

對於精準抓取,我們的策略傾向於使用小手指而不是食指或中指。這可能是因為跟食指、中指和無名指相比,Shadow Dexterous Hand的小手指有額外的自由度,使它更加靈巧。但是人類的食指和中指通常更靈巧。這意味著我們的系統可以重新發現已在人類身上發現的抓握特徵,但要讓它們更好地適應自身身體的限制和能力。

學習靈巧的手部操作,強化學習賦能機械臂

圖7:從我們的策略中學到的不同抓握型別。從左上角到右下角:指尖捏抓、手掌捏抓、三腳架捏抓、四腳架捏抓、五個手指精準捏抓和力量捏抓。按照【18】分類。

我們觀察到人類手指旋轉和我們的機器手指旋轉策略之間的另一個有趣的相似之處,這是一種用兩根手指握住一個物體並繞著這個軸旋轉的策略。研究發現兒童還沒有完全發展好他們的運動技能,因此傾向於使用手指近端或中間指骨旋轉物體【44】。只有在以後的生活中,他們才會逐漸轉向主要使用遠端指骨,這是在成年人中發現的優勢策略。有趣的是,我們的策略通常也依賴於使用遠端指骨的手指旋轉。

在實體機器人的實驗中,我們注意到最常見的故障模式是在旋轉到腕關節向下時掉落物體。然而,垂直關節是機器人最常見的斷裂部位,可能是因為該部位承受的負載最大。考慮到這些困難 ,我們還訓練了手腕關節的鎖定策略。6我們注意到,這種策略不僅能更好地遷移到實體機器人上,而且似乎能更有意地處理物件,在這種設定中經常出現許多上述的抓取動作。我們觀察到的其他故障模式是在試驗剛開始就掉落物體(這種情況可解釋為錯誤地識別了某些方面的環境),並因為物體邊緣卡在螺紋孔裡而卡住了(此類情況我們不做模擬)。

我們鼓勵讀者觀看附帶的視訊,更好地瞭解學習行為。學習靈巧的手部操作,強化學習賦能機械臂

6.2 定量結果

在本節中,我們定量地評估了我們的實驗結果。為此,我們測量連續成功旋轉的次數,直到物體掉落(目標在80秒內沒有實現),或者直到完成50次旋轉。所有結果如表3所示。

表3:模擬實驗中和實體機器人連續成功旋轉的次數。所有策略都在使用所有隨機化的環境中進行了訓練。我們進行了100次模擬試驗,每個策略在實體機器人上做10次試驗。每次試驗在物體掉落、完成50次旋轉或超時時終止。在物理試驗中,不同時間對實體機器人進行試驗。

學習靈巧的手部操作,強化學習賦能機械臂

學習靈巧的手部操作,強化學習賦能機械臂我們的研究結果使我們能夠直接比較每個任務在模擬和真實機器人上的效能。例如,在模擬試驗中操作一個方塊能獲得50次成功中位數,而在物理設定中,成功中位數僅為13。這是我們觀察到的總體趨勢:雖然隨機化和校準縮小了現實差距,但是差距仍然存在,

實際系統的效能仍比模擬系統的效能差。我們將在第6.3節更詳細地討論個體隨機化的重要性。

當使用視覺進行位姿估計時,我們在模擬試驗和真實機器人上都獲得了稍差的結果。這是因為即使是在模擬試驗中,我們的模型仍必須進行遷移,因為它僅受了Unity渲染影像的訓練,但是在模擬試驗中我們使用MuJoCo呈現評估(因此這是一個模擬到模擬的遷移問題)。就真實機器人而言,我們的視覺模型比PhaseSpace的位姿估計稍微差些。然而,兩者之間的差異非常小,這表明僅在模擬中訓練視覺模型足以在真實機器人上獲得良好的效能。進行視覺位姿估計時,我們發現使用白色背景並在試驗間用噴漆除塵布擦拭物件有助於移除機器手上的碎屑。

我們也評估了在第二類物件——八角形稜鏡上的效能。為此,我們微調了相同隨機分佈環境中的訓練方塊旋轉控制策略,但是使用八角形稜鏡作為目標物件而不是方塊。雖然我們的隨機化最初都是針對方塊設計的,但是我們能夠學習到成功遷移的策略。然而跟方塊相比,在模擬和真實機器人上仍然存在效能上的差距。這表明進一步的調優是必要的,引入額外的隨機化可以改進對物理系統的遷移。

我們還對一個球體進行了簡單試驗,但是連續幾次旋轉都失敗了,這可能是因為我們沒有對任何與滾動行為相關的MuJoCo引數進行隨機化,或是因為滾動物體對手部未建模的缺陷(比如螺紋)更敏感。訓練一個可以處理多個物件的統一策略也很有趣,但是我們把它留到以後再研究。 

表3中獲得的研究結果是一個挑戰,因為機器人在試驗過程中發生了斷裂。修復機器人需要時間,而且經常會改變系統的某些方面,這就是為什麼在不同的時間獲得結果的原因。一般來講,我們發現硬體損壞問題是我們在這項工作中必須克服的關鍵挑戰之一。

6.3 隨機化簡化

學習靈巧的手部操作,強化學習賦能機械臂

在第3.2節中,我們詳細列出了一組引數,隨機並新增在模擬器中未建模的效果。在本節中,我們將證明這些新增到模擬器的對遷移來說至關重要。我們在各種隨機化的環境中訓練了5個獨立的RL策略:所有隨機化(基準)、沒有觀測噪聲、沒有未建模影響、沒有物理現象隨機化且沒有隨機化(基本模擬器,例如沒有域隨機化)。

在模擬試驗中增加隨機化或效果並不是不需要成本;在圖8中,我們顯示了在壁鐘時間內繪製的每個環境的模擬訓練效能。策略在更困難的隨機化環境(例如所有隨機化以及沒有觀測噪聲)中訓練收斂更慢,因此需要更多計算和模擬經驗來訓練。然而,在真實機器人上部署這些策略時,我們發現隨機化訓練對遷移來說至關重要。表4總結了我們的研究結果。具體來說,我們發現所有隨機化訓練連續實現13個目標的中位數,而沒有隨機化、沒有物理現象隨機化和沒有未建模影響下進行的訓練策略,分別只能實現0個、2個和2個連續目標的中位數。

表4:在不同的隨機化環境中,5個策略在實體機器人上分別訓練連續成功旋轉的次數 前5行使用PhaseSpace 進行物體位姿評估,並在同一機器人上同時進行。每一行的試驗都是交錯進行的,以防試驗期間機器人的狀態發生改變。最後兩行與前5行的測量時間不同,並使用視覺模型估計物體位姿。

學習靈巧的手部操作,強化學習賦能機械臂

當進行觀測噪聲隨機化時,與其他隨機化組相比,其效能差距不明顯。我們認為,這是因為我們的動作捕捉系統噪聲很小。然而,我們仍要包括這種隨機化,因為在組成視覺和控制策略時,其很重要。在這種情況下,物體的位姿估計會有很大噪聲。因此,進行觀測噪聲訓練就顯得尤為重要。表4中的結果表明情況確實如此,如果不進行觀測噪聲隨機化,效能的中位數將從11.5降至3.5。

絕大部分訓練時間都花在了為不同的物理動態制定穩健策略上。在沒有隨機化的情況下,學習模擬試驗中旋轉物體需要大約3年的模擬經驗,而在完全隨機化的模擬中實現相同的效能需要大約100年的經驗。在我們的模擬設定中,對應的壁鐘時間分別為1.5小時和50小時左右。

6.4 策略記憶效應

我們發現,在隨機化模擬試驗中,使用記憶功能有助於獲得良好的效能。在圖9中,我們顯示了三種不同RL結構的模擬效能:具有LSTM策略和價值函式的基準、前饋(FF)策略和LSTM價值函式、及FF策略和FF價值函式。我們將帶有LSTM價值函式的FF策略結果包括進來,因為更具有表現力的價值函式可能會加快訓練,並允許策略在聚合後沒有記憶體的情況下更穩健地進行。然而,我們可以看出基線的效能高於這兩種變體,這表明在實際策略中有一定的記憶體是有益的。

此外,我們還發現LSTM狀態對環境隨機化有預測作用。尤其是,我們發現,在80%的情況下,在與方塊模擬互交5秒後,LSTM的隱藏狀態可以預測方塊大於還是小於平均值。

學習靈巧的手部操作,強化學習賦能機械臂

為了研究記憶體增強策略對遷移的重要性,我們在實體機器人上評估了上述相同的三種網路架構。表5總結了我們的研究結果。我們的研究結果表明,具有訪問記憶體的策略可以獲得更高的成功旋轉的中位數,這表明該策略可能使用記憶體來適應當前環境。學習靈巧的手部操作,強化學習賦能機械臂定性地說,我們也發現FF策略經常卡住且超時。

學習靈巧的手部操作,強化學習賦能機械臂

表5: 在所有隨機化環境中訓練3種不同網路架構的策略在實體機器人上連續成功旋轉的次數在實體機器人上,在不同的時間收集每行的結果。

網路架構

平均值

中位數

個體試驗(分類)

LSTM策略/LSTM價值(狀態)

18.8土17.1

13

50, 41,29, 27,14,12, 6, 4, 4,1

FF策略/LSTM價值(狀態)

4.7土4.1

3.5

15, 7, 6, 5, 4, 3, 3, 2, 2, 0

FF策略/FF價值(狀態)

4.6土4.3

3

15, 8, 6, 5, 3, 3, 2, 2, 2, 0

6.5 樣本複雜度&規模

圖10中顯示了改變訓練中使用CPU核心和GPU的數量時的結果,我們保持每個GPU批量大小固定 ,這樣總批大小與GPU數量直接成正比。因為我們可以通過簡單使用較少的CPU機器並讓GPU等待資料時間更長來線性減慢訓練速度,更有益於改變批量大小。我們可以看出,我們的預設設定使用8個GPU優化器和6144個推出CPU核心,實現連續完成20目標,比使用1個GPU優化器和768個推出核心的設定大約快5.5倍。此外,當使用16個GPU時,我們實現連續完成40個目標的速度大約是使用8個預設的GPU設定時的1.8倍。進一步擴充套件會導致收益遞減,但似乎擴充套件到16個GPU和12288個CPU核心時更接近線性加速。 學習靈巧的手部操作,強化學習賦能機械臂

圖10:我們在模擬試驗中當改變訓練中的計算量和壁鐘訓練時間(左)和多年經驗消耗的恐慌時來顯示效能。使用的批量大小與使用的GPU數量成正比,除因跨優化器機器的梯度同步而導致速度下降之外,每個優化步驟的時間應保持不變。

6.6 視覺效能

在表3中,試驗結果表明,在不給目標物件嵌入感測器的情況下,我們可以結合基於視覺的姿勢估計器和控制策略成功遷移到真實機器人上。為了更好地理解為什麼這是可能的,我們評估了姿勢估計器對合成資料和真實資料的精度。在模擬試驗中評估系統很容易,因為我們可以生成必要的資料且能夠對精確的物件姿勢進行比較。相比之下,真實的影像必須通過在我們的機器人平臺上基於執行狀態的策略來收集。我們使用 PhaseSpace來估計物件的姿勢,因此很容易出錯。所收集的測試集的結果包括992個實際樣本。 學習靈巧的手部操作,強化學習賦能機械臂我們使用經Unity 和 MuJoCo渲染的測試集進行模擬。MuJoCo投標者沒有在訓練期間沒有使用,因此此評估也可以作為模擬到模擬遷移的一個例項。表6總結了我們的研究結果。

表6:基於視覺的合成和真實資料姿勢估計器的效能 

測試集

旋轉誤差

位置誤差

渲染影像(Unity)

2.71°土1.62

3.12mm士1.52

渲染影像(MuJoCo)

3.230土2.91

3.71mm土4.07

真實影像

5.01°土2.47

9.27mm土4.02

學習靈巧的手部操作,強化學習賦能機械臂

本研究結果表明,該模型在測試合成資料時,對旋轉和位置預測均獲得了較低的誤差。10

在用MuJoCo渲染的影像上,只有誤差略微增加,這表明成功實現從模擬到模擬的遷移。真實資料誤差進一步增加,是由於模擬和現實之間的差距,也是因為噪聲、遮擋、不完善的標記位置和感測器讀數延遲等原因,使實際情況更具有挑戰性。儘管預測誤差大於策略訓練期間使用的觀測噪聲(表7),基於視覺的策略在實體機器人上獲得了較好的體現(表3)。

相關工作

為了更容易理解靈巧的手部操作的頂尖技術,我們收集了一組具有代表性的相關工作的視訊,並從中建立了一個播放列表11

7.1 靈巧操縱

幾十年來,靈巧操縱一直是機器人研究的活躍領域【17, 52, 7, 42, 37】。多年來,人們提出了許多不同的方法和策略。這包括滾動【8,22, 23, 9,13】、滑動【9, 59】、手指步態 【23】、手指跟蹤【51】、推【11】、重新抓取【65,12】。對於某些手型,還可以選擇旋轉【3】、傾斜【15】、翻筋斗【55】、輕敲【26】、兩點操作【2】和雙手操作【14】等策略。這些方法使用規劃,因此需要精確的手和物件模型。在計算軌跡後,該計劃通常是開環執行的,因此如果模型不準確,這些方法就很容易失敗。12

學習靈巧的手部操作,強化學習賦能機械臂

其他方法採用閉環方法實現靈巧操作,並在執行期間整合感測器反饋,例如觸覺感測【60, 34, 35, 36】。雖然這些方法允許在執行過程中糾正錯誤,他們仍需要合理的機器人運動學和動力學模型,而獲得許多自由度的欠驅動機器手可能是一個挑戰。

深度強化學習也被成功應用於學習實體機器人的複雜操作技能。指導性的策略搜尋【31,33】直接在機器人上學習簡單的區域性政策,並將它們提煉成一個由神經網路表示的全域性策略。另一種方法是同時使用許多實體機器人,以便能夠收集足夠的經驗【20, 32, 27】。

7.2 靈巧的手部操作

由於過去有大量關於靈巧操作的研究,我們將更詳細的討論限制在與我們的靈巧的手部操作工作最緊密相關的設定上。

Mordatch等人【40】和Bai 等人【5】提出了為複雜和動態的手部操作生成軌跡的方法,但是研究結果僅限於模擬。在學習複雜的手部靈巧操作【49, 6】,甚至在使用工具【50】深度強化學習方面也取得了重大進展,但是這些方法也只是在模擬中進行了評估。

相比之下,許多作者直接在機器人上學習靈巧的手部操作策略。 Hoof 等人【67】學習用手部操作 一個簡單的三指夾持器,而Kumar等人【30, 29】和Falco等人【16】學習針對更復雜的人形手策略。直接在機器人上學習意味著建模系統不是問題,這也意味著學習只能通過少量的試驗來完成。這隻有在學習非常簡單的(例如線性或區域性)策略時才可實現,而這些策略不表現處複雜的行為。

7.3 模擬與真實世界無縫銜接

域適應方法【66,21】、漸進網【53】、學習逆動力學模型【10】都被提出來,以幫助實現模擬與真實世界無縫銜接。所有這些方法都假定可使用真實資料。另一種方法是,使策略本身在使用域隨機化模擬訓練過程中具有更強的適應性。域隨機化用於無人機【54】的物件姿勢估計【62】和視覺策略的遷移。這個想法也被擴充套件到動態隨機化【4, 61, 68】,學習遷移至相似但不同動態環境中的穩健策略。域隨機化還被用來針對相對簡單的機器人,設計牢固的抓取【38, 39, 63】,並遷移習得的運動【61】和抓取【69】策略。Pinto等人【48】提出使用對抗訓練獲得更多穩健策略,並證明它也有助於遷移到實體機器人上【47】。

結論

在本研究中,我們證明了RL在模擬器上習得的手部操作技巧能在物理五指機器手上達到前所未有的靈巧水平。由於模擬器的廣泛隨機化、大規模的分散式訓練基礎設計、具有記憶功能的策略和能在模擬器上進行建模的感應模式選擇使其有可能現實。我們的研究結果表明,與普遍的看法相反,當代深度RL演算法可用於解決複雜的現實機器人問題,這些問題是現有的非基於學習的方法無法解決的。

相關文章