分離特徵抽取與決策制定，如何用6-18個神經元玩轉Atari遊戲

機器之心發表於2018-11-28

原文網址 : https://flycode.co/archives/289622

選自arXiv，機器之心編譯。

本論文提出了一種在複雜的強化學習設定中同時又獨立地學習策略和表徵的新方法，通過基於向量量化和稀疏編碼的兩種新方法來實現。這使得僅包含 6 到 18 個神經元的網路也可以玩轉 Atari 遊戲。

在深度強化學習中，大型網路在直接的策略逼近過程中，將會學習如何將複雜的高維輸入（通常可見）對映到動作。當一個擁有數百萬引數的巨型網路學習較簡單任務時（如玩 Qbert 遊戲），學到的內容中只有一小部分是實際策略。一個常見的理解是網路內部通過前面層級學習從影象中提取有用資訊（特徵），這些底層網路將畫素對映為中間表徵，而最後（幾）層將表徵對映至動作。因此這些策略與中間表徵同時學習得到，使得獨立地研究策略幾乎不可能。

將表徵學習和策略學習分離方能獨立地研究二者，這潛在意義上能夠使我們對現存的任務及其複雜度有更清晰的理解。本論文就朝著這個目標前進，作者通過實現一個獨立的壓縮器（即特徵提取器）將特徵提取和決策分離開來，這個壓縮器在策略與環境互動中所獲取的觀測結果上進行線上訓練。將網路從構建中間表徵中解放出來使得網路可以專注於策略逼近，從而使更小的網路也能具備競爭力，並潛在地擴充套件深度強化學習在更復雜問題上的應用。

該論文的主要貢獻是提出一種在複雜的強化學習設定中同時又獨立地學習策略特徵的新方法。這通過基於向量量化（Vector Quantization，VQ）和稀疏編碼（Sparse Coding，SC）的兩種新方法來實現，研究者將這兩種方法分別稱為「Increasing Dictionary VQ」和「Direct Residuals SC」。隨著訓練繼續、網路學習到更復雜的策略，網路與環境的複雜互動帶來更多新的觀測結果；特徵向量長度的增長反映了這一點，它們表示新發現的特徵。類似地，策略通過可解決維度增加問題的指數自然進化策略（Exponential Natural Evolution Strategy）進行訓練。實驗結果顯示該方法可高效學習兩種元件，從而僅使用 6 到 18 個神經元（神經元數量比之前的實現少了兩個數量級）組成的神經網路就可以在多個 ALE 遊戲中獲得當前最優的效能，為專用於策略逼近的深度網路研究奠定了基礎。

圖 1：系統圖示。在每個生成階段，優化器（1）為神經網路控制器（3）生成權重集合（2）。每個權重都是偶發地（episodically）通過環境進行評估（4）。在每一步，環境將觀測結果（5）傳送到外部壓縮器（6），壓縮器生成緊湊編碼（7）作為網路輸入。壓縮器為訓練集（9）選擇觀測結果（8）。在該 episode 結束時，環境向優化器返回適應度分數（累計獎勵，10）進行訓練（神經進化，11）。壓縮器訓練（12）發生在生成階段。

3 方法

該系統包括四個主要部分：1）Environment（環境）：Atari 遊戲，採取動作、提供觀測結果；2）Compressor（壓縮器）：從觀測結果中提取低維程式碼，同時系統其他部分執行線上訓練；3）Controller（控制器）：策略逼近器，即神經網路；4）Optimizer（優化器）：學習演算法，隨著時間改進網路的效能，在本研究案例中優化器採用的是進化策略。

圖 2：訓練中心點。在 Qbert 遊戲執行期間，使用 IDVQ 訓練多箇中心點。注意第一個中心點如何捕捉遊戲的初始狀態（背景），其他中心點將特徵構建為後續殘差：發光立方體、avatar 和敵人。

5 結果

研究者在 10 個 Atari 遊戲上展示了對比結果，這十個遊戲選自 ALE 模擬器上的數百個遊戲。選擇結果依據以下篩選步驟：1）OpenAI Gym 上可獲取的遊戲；2）與 [210, 160] 具備同樣觀測解析度的遊戲；3）不包含 3d 視角的遊戲。

表 1：本研究提出方法在 Atari 遊戲樣本上與 HyperNeat [HLMS14] 和 OpenAI ES [SHC+17] 的對比結果。所有方法都是從頭開始在原始畫素輸入上訓練的。HyperNeat 列的結果使用的網路具備一個包含 336 個神經元的隱藏層。OpenAI ES 列中的結果使用兩個包含 64 個神經元的隱藏層。IDVQ+XNES 列的結果未使用隱藏層。列 # neur 表示單個（輸出）層中使用的神經元數量。粗體數字表示設定條件下最好的分數，斜體數字表示中間分數。

論文：Playing Atari with Six Neurons

論文地址：arxiv.org/abs/1806.01…

摘要：Atari 遊戲上的深度強化學習直接將畫素對映至動作；本質上，深度神經網路同時負責提取有用資訊和基於此進行決策。為了設計專用於決策的深度網路，我們提出了一種新方法，獨立但同時學習策略和緊湊狀態表徵，以得到強化學習中的策略逼近。狀態表徵通過基於向量量化和稀疏編碼的新演算法生成，狀態表徵與網路一道接受線上訓練，且能夠隨著時間不斷擴大表徵詞典規模。我們還介紹了允許神經網路能和進化策略處理維度變化的新技術。這使得僅包含 6 到 18 個神經元的網路可以學習玩 Atari 遊戲，效能可以達到甚至偶爾超過在大兩個數量級的深度網路上使用進化策略的當前最優技術。

特徵向量、神經元以及特徵空間
2024-12-06
特徵
[TIL] 如何用 linux 玩遊戲
2023-01-24
Linux遊戲
每一個遊戲策劃都是神盾局長
2019-10-16
遊戲
神馬？你想去做遊戲策劃？
2019-09-04
遊戲
經濟預測與決策
2020-12-12
神策遊戲解決方案：賦能遊戲產業精品化研運升級
2022-03-29
遊戲產業
如何制定出令人讚歎的決策？
2021-11-23
試玩 GOWOG ，初探 OpenAI（使用 NeuroEvolution 神經進化）與 Golang 多人線上遊戲開發
2021-01-27
OpenAIGolang遊戲開發
遊戲策劃知識點——如何在玩遊戲的時候培養“策劃思維”
2021-11-30
遊戲
決策樹模型(2)特徵選擇
2024-03-26
模型特徵
win10商店的遊戲怎麼離線遊玩_win10商店的遊戲離線遊玩操作方法
2020-06-06
Win10遊戲
教程 | TensorEditor ：一個小白都能快速玩轉的神經網路搭建工具
2019-03-02
神經網路
技術架構師如何制定決策 – Mark Greville
2021-05-21
架構
博文推薦｜零經驗玩轉隔離策略：多個 Pulsar 叢集
2021-12-06
SEO解決方案制定，如何脫離杯弓蛇影？
2021-01-04
策劃經驗談：遊戲策劃設計的是體驗
2019-05-06
遊戲
小白這樣玩遊戲，離入門遊戲運營不遠了
2019-11-27
遊戲
伊拉克“遊戲禁令”：不準與敵人玩遊戲！
2019-04-22
遊戲
遊戲策劃是如何用數值來影響玩家體驗的？
2020-07-15
遊戲
決策樹中結點的特徵選擇方法
2018-05-09
特徵
遊戲AI之決策結構—行為樹
2019-09-30
遊戲AI
遊戲分析法（三）：核心產品決策
2019-05-28
遊戲
微服務神經元(Neural)
2019-04-18
微服務
分類——決策樹模型
2020-10-23
模型
python玩轉街機遊戲，操作親民！
2018-12-05
Python遊戲
四、遊戲物件與圖形基礎（牧師與魔鬼動作分離版）
2020-10-19
遊戲物件
遊戲策劃成長的四個階段，你都經歷過了嗎？
2020-02-03
遊戲
如何用 Graylog 管理日誌？ - 每天5分鐘玩轉 Docker 容器技術（93）
2020-12-01
Docker
遊戲文案策劃——能力構成與訓練
2022-08-12
遊戲
電商遊戲設計與策劃大法——下
2021-04-26
遊戲設計
電商遊戲設計與策劃大法——上
2021-04-20
遊戲設計
windows10系統下怎麼離線玩遊戲
2019-06-14
Windows遊戲
如何用Nearby Service讓你的遊戲實現近距離聯機
2020-07-20
遊戲
AAA遊戲UI特徵初探
2022-02-16
遊戲UI特徵
當天神也玩模擬經營遊戲時……
2021-07-19
遊戲
從遊戲評分到公共決策：經濟學視角下的公共選擇機制
2020-03-20
遊戲
理解神經元和函式
2020-10-15
函式
Ascend2：利用營銷資料制定更好的決策報告
2020-06-16

分離特徵抽取與決策制定，如何用6-18個神經元玩轉Atari遊戲

相關文章