[譯] 強化學習中的好奇心與拖延症

leeyang-tju發表於2018-11-29

強化學習(RL)是機器學習中最活躍的研究技術之一,在這項技術中,當一個人工代理(artificial agent)做了正確的事情時會得到積極的獎勵,反之則會受到消極的獎勵。這種胡蘿蔔加大棒的方法簡單而通用,比如 DeepMind 教授的 DQN 演算法可以讓它去玩老式的雅達利(Atari)遊戲,可以讓 AlphaGoZero 玩古老的圍棋遊戲。這也是 OpenAI 如何教會它 OpenAI-Five 演算法去玩現代電子遊戲 Dota,以及 Google 如何教會機器人手臂來抓取新物體。然而,儘管 RL 取得了成功,但要使其成為一種有效的技術仍面臨許多的挑戰。

標準的 RL 演算法 struggle 適用於對代理反饋稀疏的環境 —— 關鍵的是,這種環境在現實世界中很常見。舉個例子,想象一下如何在一個迷宮般的大型超市裡找到你最喜歡的乳酪。你搜尋了一遍又一遍,但沒有找到乳酪區域。如果你每走一步都沒有得到“胡蘿蔔”或者“大棒”,那麼你就無法判斷自己是否在朝著正確的方向前進。在沒有回報反饋的情況下,你如何才能不在原地打轉呢?也許除了那個能夠激發你走進一個不熟悉的產品區域去尋找心愛乳酪的好奇心,再沒有什麼能夠打破這個迴圈了。

在論文“基於可及性實現情景式的好奇心”中 —— 這是 Google Brain 團隊DeepMind蘇黎世 ETH 之間合作的結果 —— 我們提出了一種新的情景式記憶模型,以給予 RL 獎勵,這類似於在好奇心的驅使下來探索環境。由於我們不僅想讓代理探索環境,而且要解決原始任務,所以我們在原始稀疏任務獎勵的基礎上增加了模型提供的獎勵。聯合獎勵不再是稀疏的,這允許標準的 RL 演算法可以從中得到學習。因此,我們的好奇心方法擴充套件了 RL 可解決的任務集。

[譯] 強化學習中的好奇心與拖延症

基於可及性實現情景式的好奇心:通過向記憶中新增觀察機制,然後根據當前的觀察與記憶中最相似的觀察的距離來計算獎勵。如果看到了在記憶中還沒有出現的觀察結果,代理會獲得更多的獎勵。

我們的方法中的關鍵想法是把代理對環境的觀察儲存在情景記憶中,同時當代理獲得了在記憶中還沒有表現出來的觀察時給予獎勵,從而避免原地打轉,並最終向目標摸索前行。“不在記憶中”是我們方法中比較創新的定義 —— 尋找這樣的觀察內容即尋找不熟悉的事物。這樣一種尋找不熟悉事物的驅動條件可以將人工代理引導至一個新的位置,從而避免了它在已知圈子中徘徊,並最終幫助它摸索到目標點。正如我們稍後將討論的,我們的方法可以使代理避免一些其它方法中容易出現的不良結果。令我們驚訝的是,這些行為與外行人口中所謂的“拖延症”有一些相似之處。

以前的好奇心形式
儘管過去曾經有很多對好奇心進行制定的嘗試[1][2][3][4],但在本文中,我們專注於一種自然且非常流行的方法:通過基於預測的驚訝來探索好奇心(通常稱為 ICM 方法),該方法在最近的論文“通過自我監督預測的好奇心驅動探索”中進行了探討。為了說明驚訝是如何引起好奇心的,再次考慮我們在超市尋找乳酪的例子。

[譯] 強化學習中的好奇心與拖延症

插圖 © Indira Pasko,在 CC BY-NC-ND 4.0 許可下使用。

當你在整個市場漫步時,你試著預測未來的情況(“現在我在肉類區域,所以我認為拐角處的部分是魚類區域 —— 這些區域通常在超市中是相鄰的”)。如果你的預測是錯誤的,你會感到驚訝(“不,它實際上是蔬菜區域。我沒料到!”)因而得到相應的回報。這使你更加有動力接下來去看看這個角落周圍的環境,探索新的位置來看看你對它們的期望是否是符合實際的(並且,希望能偶然間發現乳酪)。

類似地,ICM 方法建立了對整個世界環境的動態預測模型,並在模型未能做出良好預測時給予代理一定的獎勵 —— 這是驚訝或新奇的標誌。請注意,探索未訪問的位置並不直接是 ICM 好奇心公式的一部分。對於 ICM 方法來說,訪問它們只是用於獲得更多“驚訝”的方式,從而最大化整體獎勵。事實證明,在某些環境中可能存在其它方式會造成自我驚訝,從而導致無法預料的結果。

[譯] 強化學習中的好奇心與拖延症

基於驚訝的好奇心的代理在遇到電視畫面時會被卡住。GIF 採用了來自 © Deepak Pathak 的視訊,在 CC BY 2.0 許可下使用。

“拖延症”的威脅
在論文“大規模好奇心驅動學習研究”中,ICM 方法作者以及 OpenAI 研究人員揭示了最大化驚訝的潛在危險:代理可能會放縱這種拖延行為,而不是為當前的任務做一些有用的事情。為了找出原因,讓我們考慮一個常見思維實驗,該實驗被作者稱為“嘈雜電視問題”,在這個實驗中,一個代理被置於迷宮中,它的任務是找到一個高回報的物體(這類似於我們之前提到的超市例子中的“乳酪”)。該環境中還包含了一個電視裝置,代理可以遠端操控。電視裝置的頻道數量有限(每個頻道都有不同的節目),並且每次按遙控器都會切換到一個隨機頻道。那麼該代理會如何在這樣的環境中執行呢?

對於基於驚訝的好奇心公式來說,改變電視訊道會產生很大的回報,因為每次改變都是不可預測和令人驚訝的。至關重要的是,即使所有可用頻道都迴圈播放之後,隨機地頻道選擇也會確保每一個新的變化仍然是令人驚訝的 —— 因為代理正在預測頻道改變後電視上會出現什麼,而且這種預測很可能是錯誤的,從而導致驚訝出現。重要的是,即使代理已經看過每個頻道的每個節目,變化仍然是不可預測的。因此,這種基於驚訝的好奇心會使得代理最終永遠停留在電視機前,而不是去尋找那個非常有價值的物體了 —— 這類似於拖延症。那麼,怎樣定義好奇心才不會導致這種行為呢?

情景式好奇心
在論文“基於可及性實現情景式的好奇心”中,我們探索了一種基於情景記憶的好奇心模型,這種模型不太容易產生“自我放縱”的即時滿足感。為什麼會這樣呢?使用我們上面的例子,在更改了一段時間的頻道之後,所有的節目都在記憶體中了。因此,電視節目將不再具有吸引力:即使螢幕上出現的節目順序是隨機且不可預測的,所有的這些節目已經在記憶體中了!這是與基於驚訝的方法的主要區別:我們的方法甚至不去嘗試對可能很難(甚至不可能)預測的未來下注。相反地,代理會檢查過去,以瞭解它是否看到過與當前類似的觀察結果。這樣我們的代理就不會被嘈雜的電視帶來的即時滿足所吸引。它將不得不去探索電視之外的世界來獲得更多的獎勵。

但是,我們如何判斷代理是否看到了與現有記憶體中相同的內容內容?檢查精確匹配可能是毫無意義的:因為在現實環境中,代理很少能看到兩次完全相同的事情。例如,即使代理返回到同一個房間,它仍然會從一個與記憶中不同的角度來看這個房間。

我們訓練一個深度神經網路來測量兩種體驗的相似程度,而不是去尋求一個與記憶體中內容的精確匹配。為了訓練這個網路,我們讓它來猜測這兩個觀察內容是在時間上緊密相連,還是在時間上相距很遠。我們使用時間接近程度(Temporal proximity)作為一個較好的指標,判斷兩個經歷是否屬於同一體驗的一部分。該訓練可以通過可達性來獲取通用概念上的新穎性,如下所示。

[譯] 強化學習中的好奇心與拖延症

可達性圖會決定新穎性。而在實踐中,該圖是不可用的 —— 因此我們需要訓練一個神經網路近似器來估計多步觀察內容之間的關係。

實現結果
為了比較不同的好奇心方法的效能表現,我們在兩個具有豐富視覺效果三維環境中測試它們:即 ViZDoomDMLab。在這些環境中,代理的任務是處理各種問題,比如在迷宮中搜尋目標,或者收集好的以及避免壞的物體。DMLab 環境恰好可以為代理提供類似鐳射的科幻工具。在之前工作中的標準設定是為代理在所有任務中都設定 DMLab 的小工具,如果代理在特定任務中不需要此工具,則可以不用它。有趣的是,類似於上面描述的嘈雜電視實驗,基於驚訝的 ICM 方法實際上是使用了這個工具的,即使它對於當前任務是無用的!當在迷宮中搜尋高回報的物體時,它更喜歡花時間來標記牆壁,因為這會產生很多的“驚訝”獎勵。從理論上來講,應該是可以預測到標記結果的,但這在實踐中是很難的,因為這很顯然需要標準代理了解更深入的物理學知識才行。

[譯] 強化學習中的好奇心與拖延症

基於驚訝的 ICM 方法是在持續標記牆壁,而不是探索迷宮。

相反,我們的方法在相同的條件下學習合理的探索行為。這是因為它沒有試圖預測自身行為的結果,而是尋求從情景記憶中“更難”獲得的觀察結果。換句話說,代理隱式地追求一些目標,這些目標需要更多的努力才能獲取到記憶體中,而不僅僅是單一的標記操作。

[譯] 強化學習中的好奇心與拖延症

我們的方法展示出的合理的探索行為。

有趣的是,我們給予獎勵的方法會懲罰在圈子中迴圈的代理。這是因為在完成第一次迴圈後,代理不會遇到除記憶中的觀察之外的新的觀察結果,因此不會得到任何的獎勵:

[譯] 強化學習中的好奇心與拖延症

方法中獎勵的視覺化:紅色表示負面的獎勵,綠色表示積極的獎勵。從左到右:帶有獎勵的地圖,記憶體中帶有當前位置的地圖,第一人稱視角圖。

同時,我們的方法有利於良好的探索行為:

[譯] 強化學習中的好奇心與拖延症

方法中獎勵的視覺化:紅色表示負面的獎勵,綠色表示積極的獎勵。從左到右:帶有獎勵的地圖,記憶體中帶有當前位置的地圖,第一人稱視角圖。

希望我們的工作有助於引領新的探索方法浪潮,能夠超越驚訝機制並學習到更加智慧的探索行為。具體方法的深入分析,請檢視我們的研究論文預印本。

致謝:
該專案是 Google Brain 團隊、DeepMind 和 ETH Zürich 之間合作的成果。核心團隊包括 Nikolay Savinov、Anton Raichuk、Raphaël Marinier、Damien Vincent、Marc Pollefeys、Timothy Lillicrap 和 Sylvain Gelly。感謝 Olivier Pietquin、Carlos Riquelme、Charles Blundell 和 Sergey Levine 關於該論文的討論。感謝 Indira Pasko 對插圖的幫助。

參考文獻:
[1] "Count-Based Exploration with Neural Density Models", Georg Ostrovski, Marc G. Bellemare, Aaron van den Oord, Remi Munos
[2] "#Exploration: A Study of Count-Based Exploration for Deep Reinforcement Learning", Haoran Tang, Rein Houthooft, Davis Foote, Adam Stooke, Xi Chen, Yan Duan, John Schulman, Filip De Turck, Pieter Abbeel
[3] "Unsupervised Learning of Goal Spaces for Intrinsically Motivated Goal Exploration", Alexandre Péré, Sébastien Forestier, Olivier Sigaud, Pierre-Yves Oudeyer
[4] "VIME: Variational Information Maximizing Exploration", Rein Houthooft, Xi Chen, Yan Duan, John Schulman, Filip De Turck, Pieter Abbeel

相關文章