分離特徵抽取與決策制定,如何用6-18個神經元玩轉Atari遊戲

機器之心發表於2018-11-28

選自arXiv,機器之心編譯。

本論文提出了一種在複雜的強化學習設定中同時又獨立地學習策略和表徵的新方法,通過基於向量量化和稀疏編碼的兩種新方法來實現。這使得僅包含 6 到 18 個神經元的網路也可以玩轉 Atari 遊戲。

在深度強化學習中,大型網路在直接的策略逼近過程中,將會學習如何將複雜的高維輸入(通常可見)對映到動作。當一個擁有數百萬引數的巨型網路學習較簡單任務時(如玩 Qbert 遊戲),學到的內容中只有一小部分是實際策略。一個常見的理解是網路內部通過前面層級學習從影像中提取有用資訊(特徵),這些底層網路將畫素對映為中間表徵,而最後(幾)層將表徵對映至動作。因此這些策略與中間表徵同時學習得到,使得獨立地研究策略幾乎不可能。

將表徵學習和策略學習分離方能獨立地研究二者,這潛在意義上能夠使我們對現存的任務及其複雜度有更清晰的理解。本論文就朝著這個目標前進,作者通過實現一個獨立的壓縮器(即特徵提取器)將特徵提取和決策分離開來,這個壓縮器在策略與環境互動中所獲取的觀測結果上進行線上訓練。將網路從構建中間表徵中解放出來使得網路可以專注於策略逼近,從而使更小的網路也能具備競爭力,並潛在地擴充套件深度強化學習在更復雜問題上的應用。

該論文的主要貢獻是提出一種在複雜的強化學習設定中同時又獨立地學習策略特徵的新方法。這通過基於向量量化(Vector Quantization,VQ)和稀疏編碼(Sparse Coding,SC)的兩種新方法來實現,研究者將這兩種方法分別稱為「Increasing Dictionary VQ」和「Direct Residuals SC」。隨著訓練繼續、網路學習到更復雜的策略,網路與環境的複雜互動帶來更多新的觀測結果;特徵向量長度的增長反映了這一點,它們表示新發現的特徵。類似地,策略通過可解決維度增加問題的指數自然進化策略(Exponential Natural Evolution Strategy)進行訓練。實驗結果顯示該方法可高效學習兩種元件,從而僅使用 6 到 18 個神經元(神經元數量比之前的實現少了兩個數量級)組成的神經網路就可以在多個 ALE 遊戲中獲得當前最優的效能,為專用於策略逼近的深度網路研究奠定了基礎。

分離特徵抽取與決策制定,如何用6-18個神經元玩轉Atari遊戲

圖 1:系統圖示。在每個生成階段,優化器(1)為神經網路控制器(3)生成權重集合(2)。每個權重都是偶發地(episodically)通過環境進行評估(4)。在每一步,環境將觀測結果(5)傳送到外部壓縮器(6),壓縮器生成緊湊編碼(7)作為網路輸入。壓縮器為訓練集(9)選擇觀測結果(8)。在該 episode 結束時,環境向優化器返回適應度分數(累計獎勵,10)進行訓練(神經進化,11)。壓縮器訓練(12)發生在生成階段。

3 方法

該系統包括四個主要部分:1)Environment(環境):Atari 遊戲,採取動作、提供觀測結果;2)Compressor(壓縮器):從觀測結果中提取低維程式碼,同時系統其他部分執行線上訓練;3)Controller(控制器):策略逼近器,即神經網路;4)Optimizer(優化器):學習演算法,隨著時間改進網路的效能,在本研究案例中優化器採用的是進化策略。

分離特徵抽取與決策制定,如何用6-18個神經元玩轉Atari遊戲

圖 2:訓練中心點。在 Qbert 遊戲執行期間,使用 IDVQ 訓練多箇中心點。注意第一個中心點如何捕捉遊戲的初始狀態(背景),其他中心點將特徵構建為後續殘差:發光立方體、avatar 和敵人。

5 結果

研究者在 10 個 Atari 遊戲上展示了對比結果,這十個遊戲選自 ALE 模擬器上的數百個遊戲。選擇結果依據以下篩選步驟:1)OpenAI Gym 上可獲取的遊戲;2)與 [210, 160] 具備同樣觀測解析度的遊戲;3)不包含 3d 視角的遊戲。

分離特徵抽取與決策制定,如何用6-18個神經元玩轉Atari遊戲

表 1:本研究提出方法在 Atari 遊戲樣本上與 HyperNeat [HLMS14] 和 OpenAI ES [SHC+17] 的對比結果。所有方法都是從頭開始在原始畫素輸入上訓練的。HyperNeat 列的結果使用的網路具備一個包含 336 個神經元的隱藏層。OpenAI ES 列中的結果使用兩個包含 64 個神經元的隱藏層。IDVQ+XNES 列的結果未使用隱藏層。列 # neur 表示單個(輸出)層中使用的神經元數量。粗體數字表示設定條件下最好的分數,斜體數字表示中間分數。

論文:Playing Atari with Six Neurons

分離特徵抽取與決策制定,如何用6-18個神經元玩轉Atari遊戲

論文地址:arxiv.org/abs/1806.01…

摘要:Atari 遊戲上的深度強化學習直接將畫素對映至動作;本質上,深度神經網路同時負責提取有用資訊和基於此進行決策。為了設計專用於決策的深度網路,我們提出了一種新方法,獨立但同時學習策略和緊湊狀態表徵,以得到強化學習中的策略逼近。狀態表徵通過基於向量量化和稀疏編碼的新演算法生成,狀態表徵與網路一道接受線上訓練,且能夠隨著時間不斷擴大表徵詞典規模。我們還介紹了允許神經網路能和進化策略處理維度變化的新技術。這使得僅包含 6 到 18 個神經元的網路可以學習玩 Atari 遊戲,效能可以達到甚至偶爾超過在大兩個數量級的深度網路上使用進化策略的當前最優技術。

相關文章