NeurIPS 2020 | 近期必讀模仿學習精選論文

AMiner科技發表於2020-12-08

AMiner平臺由清華大學計算機系研發,擁有我國完全自主智慧財產權。平臺包含了超過2.3億學術論文/專利和1.36億學者的科技圖譜,提供學者評價、專家發現、智慧指派、學術地圖等科技情報專業化服務。系統2006年上線,吸引了全球220個國家/地區1000多萬獨立IP訪問,資料下載量230萬次,年度訪問量超過1100萬,成為學術搜尋和社會網路挖掘研究的重要資料和實驗平臺。

在這裡插入圖片描述

在傳統的強化學習任務中,通常通過計算累積獎賞來學習最優策略,這種方式簡單直接,而且在可以獲得較多訓練資料的情況下有較好的表現。然而在多步決策中,學習器不能頻繁地得到獎勵,且這種基於累積獎賞及學習方式存在非常巨大的搜尋空間。而模仿學習(Imitation Learning)的方法經過多年的發展,已經能夠很好地解決多步決策問題,在機器人、NLP等領域也有很多的應用。

模仿學習是指從示教者提供的範例中學習,一般提供人類專家的決策資料,每個決策包含狀態和動作序列,將所有「狀態-動作對」抽取出來構造新的集合。之後就可以把狀態作為特徵,動作作為標記進行分類(對於離散動作)或迴歸(對於連續動作)的學習從而得到最優策略模型。模型的訓練目標是使模型生成的狀態-動作軌跡分佈和輸入的軌跡分佈相匹配。

根據AMiner-NeurIPS 2020詞雲圖和論文可以看出,與Imitation Learning是在本次會議中的熱點,下面我們一起看看Imitation Learning主題的相關論文。
在這裡插入圖片描述

1.論文名稱:BAIL: Best-Action Imitation Learning for Batch Deep Reinforcement Learning

論文連結https://www.aminer.cn/pub/5db80dc83a55acd5c14a24a2?conf=neurips2020

簡介:深度強化學習(DRL)領域最近看到了批量強化學習的研究熱潮,其目的是從給定的資料集中進行高效樣本的學習,而無需與環境進行其他互動。 在批處理DRL設定中,常用的非政策性DRL演算法的效能可能會很差,有時甚至完全無法學習。 在本文中,我們提出了一種新的演算法,即最佳動作模仿學習(BAIL),與許多非政策性DRL演算法不同,該演算法不涉及在動作空間上最大化Q函式。 為了簡化和提高效能,BAIL首先從批處理中選擇認為是其相應狀態的高效能操作的操作。 然後,它使用那些狀態-動作對通過模仿學習來訓練策略網路。 儘管BAIL很簡單,但我們證明了BAIL在Mujoco基準測試中達到了最先進的效能。
在這裡插入圖片描述

2.論文名稱:Adversarial Soft Advantage Fitting: Imitation Learning without Policy Optimization

論文連結https://www.aminer.cn/pub/5ef476b691e01165a63bba7b?conf=neurips2020

簡介:對抗式模仿學習是在學習區分器(將專家的論證與已產生的論證區分開來)與生成器的策略相結合的過程之間交替進行,該策略會欺騙該區分器。在實踐中,這種替代的優化方法非常微妙,因為它使不穩定的對抗訓練與易碎且樣本效率低下的強化學習結合在一起。我們建議通過利用新穎的區分器公式消除政策優化步驟的負擔。具體來說,我們的判別器明確地以兩個策略為條件:一個來自上一個生成器的迭代的策略和一個可學習的策略。優化後,該鑑別器將直接學習最佳發電機的策略。因此,我們的鑑別器更新免費解決了生成器的優化問題:學習模仿專家的策略不需要附加的優化迴圈。通過完全消除強化學習階段,該公式有效地將對抗模仿學習演算法的實現和計算負擔減少了一半。我們在各種任務上表明,我們更簡單的方法比流行的模仿學習方法更具競爭力。
在這裡插入圖片描述

3.論文名稱:Strictly Batch Imitation Learning by Energy-based Distribution Matching

論文連結https://www.aminer.cn/pub/5ef5c78b91e011b29a6983fa?conf=neurips2020

簡介:考慮純粹根據已證明的行為來學習策略-即,沒有獲得強化訊號的許可權,沒有過渡動態的知識,也沒有與環境的進一步互動。在嚴格的批量模仿學習中,例如在醫療保健等實時實驗中,這種問題都會出現。一種解決方案是簡單地改造用於學徒學習的現有演算法,使其可以在離線環境下工作。但是,這種方法在模型估計或非政策評估上進行了大量討價還價,並且可能是間接的且效率低下的。我們認為,一個好的解決方案應該能夠顯式地對策略進行引數化(即遵守操作條件),隱式考慮部署動態(即遵守狀態邊際),並且-關鍵地-以完全離線的方式進行操作。為了應對這一挑戰,我們提出了一種基於“基於能量的分佈匹配”(EDM)的新技術:通過使用狀態生成的(生成)能量函式來識別策略的(區分)模型的引數化,EDM提供了一種簡單且一種有效的解決方案,可以最大程度地減少演示者和模仿者在佔用率方面的差異。通過用於控制任務和醫療保健設定的應用實驗,我們展示了與現有演算法相比在嚴格批仿學習中始終具有的效能提升。
在這裡插入圖片描述

4.論文名稱:Language-Conditioned Imitation Learning for Robot Manipulation Tasks

論文連結https://www.aminer.cn/pub/5f7fdd328de39f08283980df?conf=neurips2020

簡介:模仿學習是向機器人教授運動技能的一種流行方法。但是,大多數方法集中於僅從執行軌跡(即運動軌跡和感知資料)中提取策略引數。在人類專家和機器人之間沒有足夠的通訊渠道來描述任務的關鍵方面,例如目標物件的屬性或運動的預期形狀。基於對人類教學過程的見識,我們引入了一種將非結構化自然語言納入模仿學習的方法。在訓練時,專家可以提供示範以及口頭描述,以描述潛在意圖(例如,“去大的綠色碗”)。然後,訓練過程將這兩種模態相互關聯以對語言,感知和動作之間的相關性進行編碼。可以在執行時以新的人工命令和指令為最終的以語言為條件的視覺化運動策略進行條件調整,從而可以對受過訓練的策略進行更細粒度的控制,同時還可以減少情況的歧義。我們在一組模擬實驗中演示了我們的方法如何學習針對七自由度機械臂的語言條件操作策略,並將結果與多種替代方法進行比較。
在這裡插入圖片描述

5.論文名稱:f-GAIL: Learning f-Divergence for Generative Adversarial Imitation Learning

論文連結https://www.aminer.cn/pub/5f7fdd328de39f0828397b9a?conf=neurips2020

簡介:模仿學習(IL)旨在從專家演示中學習一項政策,以最大程度地減少學習者與專家行為之間的差異。 已經提出了各種模仿學習演算法,它們具有不同的預定差異以量化差異。 這自然會引起以下問題:給定一組專家論證,哪種分歧可以以更高的資料效率更準確地恢復專家策略? 在這項工作中,我們提出了f-GAIL,這是一種新的生成式對抗模仿學習(GAIL)模型,該模型會自動從f-分歧家庭中學習差異措施以及能夠產生類似專家行為的政策。 與具有各種預定義偏差度量的IL基線相比,f-GAIL在六項基於物理的控制任務中學習了更好的策略,並具有更高的資料效率。
在這裡插入圖片描述


根據主題分類檢視更多論文,掃碼進入NeurIPS2020會議專題,最前沿的研究方向和最全面的論文資料等你來~

掃碼瞭解更多NeurIPS2020會議資訊
在這裡插入圖片描述

新增“小脈”微信,留言“NeurIPS”,即可加入【NeurIPS會議交流群】,與更多論文作者學習交流!

在這裡插入圖片描述

相關文章