「AlphaGo 之父」David Silver最新演講，傳授強化學習的十大原則

dicksonjyl560101發表於2018-09-26

原文網址 : http://blog.itpub.net/29829936/viewspace-2214853/

Go強化學習

演講課件地址：

http://www.deeplearningindaba.com/uploads/1/0/2/6/102657286/principles_of_deep_rl.pdf

原則一：評估方法驅動研究進展

David Silver 指出，客觀、量化的評估方法是強化學習進展的重要驅動力：

評估指標的選擇決定了研究進展的方向；
這可以說是強化學習專案中最重要的一個決定。

David Silver 介紹了兩種評估方法：

排行榜驅動的研究
確保評估指標緊密對應最終目標；
避免主觀評估（如人類評估）。

假設驅動的研究
形成一個假設：Double-Q 學習優於 Q 學習，因為前者減少了向上偏誤（upward bias）；
   在寬泛的條件下驗證該假設；
   對比同類方法，而不是隻與當前最優方法進行對比；
   尋求理解，而不是排行榜表現。

原則二：可擴充套件性是成功的關鍵

David Silver 認為可擴充套件性是強化學習研究成功的關鍵。

演算法的可擴充套件性指與資源相關的演算法的效能變化；
資源包括計算量、記憶體或資料；
演算法的可擴充套件性最終決定演算法成功與否；
可擴充套件性比研究的起點更加重要；
優秀的演算法在給定有限資源的條件下是最優的。

原則三：通用性（Generality）支援演算法的長遠有效性

演算法的通用性指它在不同強化學習環境中的效能。研究者在訓練時要避免在當前任務上的過擬合，並尋求可以泛化至未來未知環境的演算法。

我們無法預測未來，但是未來任務的複雜度可能至少和當前任務持平；在當前任務上遇到的困難在未來則很有可能增加。

因此，要想使演算法可以泛化至未來的不同強化學習環境，研究者必須在多樣化且真實的強化學習環境集合上測試演算法。

原則四：信任智慧體的經驗

David Silver 指出經驗（觀察、動作和獎勵）是強化學習的資料，公式可以寫作：

h_t=o_1,r_1,a_2,o_2,r_2,...,a_t,o_t,r_t

經驗流隨智慧體在環境中學習時間的延長而累積。

他告誡我們，要把智慧體的經驗作為知識的唯一來源。人們在智慧體學習遇到問題時傾向於新增人類的專業知識（人類資料、特徵、啟發式方法、約束、抽象、域操控）。

他認為，完全從經驗中學習看起來似乎不可能。也就是說，強化學習的核心問題非常棘手。但這是 AI 的核心問題，也值得我們付出努力。從長遠來看，從經驗中學習一直是正確的選擇。

原則五：狀態是主觀的

David Silver 指出：

智慧體應該從它們的經驗中構建屬於自己的狀態，即：s_t=f(h_t)
智慧體狀態是前一個狀態和新觀察的函式：s_t=f(s_t-1,a_t-1,o_t,r_t)

如下圖所示：

它是迴圈神經網路的隱藏狀態。
永遠不要根據環境的「真實」狀態來定義狀態（智慧體應該是一個部分可觀察馬爾可夫鏈模型）。

原則六：控制資料流

智慧體存在於豐富的感覺運動（sensorimotor）資料流中：
觀測結果的資料流輸入到智慧體中；
智慧體輸出動作流。
智慧體的動作會影響資料流：

特徵控制 => 資料流控制
資料流控制 => 控制未來
控制未來 => 可以最大化任意獎勵

原則七：用價值函式對環境建模

David Silver 首先給出了使用價值函式的三個原因：

高效地對未來進行總結/快取；
將規劃過程簡化為固定時間的查詢，而不是進行指數時間量級的預測；
獨立於時間步跨度進行計算和學習。

他指出，學習多個價值函式可以高效地建模環境的多個方面（控制狀態流），包括隨後的狀態變數；還能在多個時間尺度上學習。他還提醒我們避免在過於簡化的時間步上建模環境。

原則八：規劃：從想象的經驗中學習

David Silver 提出了一種有效的規劃方法，並將其分為兩步。首先想象下一步會發生什麼，從模型中取樣狀態的軌跡；然後利用我們在真實經驗中用過的 RL 演算法從想象的經驗中學習。他提醒我們從現在開始關注價值函式逼近。

原則九：使用函式近似器

David Silver 認為，可微網路架構是一種強大的工具，可以豐富狀態表示，同時使可微記憶、可微規劃以及分層控制更加便利。他提出將演算法複雜度引入網路架構，以減少演算法複雜度（指引數的更新方式），增加架構的表達性（指引數的作用）。

原則十：學會學習

AI 史是一個進步史：

第一代：舊式的 AI
手動預測：此時的人工智慧只能執行手動預測
   什麼也學不會
第二代：淺層學習
手動構建特徵：研究人員需要耗費大量時間、精力手動構建特徵
   學習預測
第三代：深度學習
手動構建的演算法（優化器、目標、架構……）
   端到端學習特徵和預測
第四代：元學習
無需手工
   端到端學習演算法和特徵以及預測

---------------------

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/29829936/viewspace-2214853/，如需轉載，請註明出處，否則將追究法律責任。

強化學習-學習筆記5 | AlphaGo
2022-07-06
強化學習筆記Go
量化評估、演算法擴充：強化學習研究的10大原則
2018-12-13
演算法強化學習
學界 | 量化評估、演算法擴充：強化學習研究的10大原則
2018-12-21
演算法強化學習
超有趣！LSTM之父團隊最新力作：將強化學習“顛倒”過來
2020-04-06
強化學習
Anthropic挖走DeepMind強化學習大牛、AlphaGo核心作者Julian Schrittwieser
2024-10-29
強化學習Go
強化學習（十）Double DQN (DDQN)
2018-10-12
強化學習
流式深度學習終於奏效了！強化學習之父Richard Sutton力薦
2024-11-29
深度學習強化學習
Ian GoodFellow最新演講：對抗機器學習的進展與挑戰
2019-05-28
Go機器學習
前端學習（2332）：angular之元件傳值之父傳子
2020-10-02
前端Angular元件
機器學習十講-第一講
2021-01-26
機器學習
例項講解：我的強化學習初體驗！
2019-03-06
強化學習
深度學習和幾何（演講提要）
2018-12-04
深度學習
深度學習如何大規模產業化？百度CTO王海峰最新演講深度解讀 | CNCC 2019
2019-10-21
深度學習產業
機器學習十講-第三講分類
2021-02-08
機器學習
機器學習十講-第二講迴歸
2021-01-30
機器學習
IJCAI-21三大獎項公佈，強化學習之父、CMU助理教授方飛、德撲AI之父獲獎
2021-07-08
AI強化學習
強化學習
2020-12-05
強化學習
強化學習-學習筆記13 | 多智慧體強化學習
2022-07-10
強化學習筆記智慧體
強化學習之父Richard Sutton給出一個簡單思路，大幅增強所有RL演算法
2024-11-01
強化學習演算法
深度強化學習——第十章稀疏獎勵
2020-11-05
強化學習
【強化學習篇】--強化學習案例詳解一
2018-06-30
強化學習
【強化學習】強化學習術語表（A-Z）
2020-10-25
強化學習
深度強化學習day01初探強化學習
2019-06-27
強化學習
學習筆記：深度學習中的正則化
2020-04-06
筆記深度學習
深度學習——正則化
2022-01-25
深度學習
【強化學習】強化學習的基本概念與程式碼實現
2018-03-21
強化學習
一款優秀的 SDK 介面設計十大原則。
2021-01-20
強化學習10——迭代學習
2020-10-26
強化學習
matplotlib 強化學習
2020-06-21
強化學習
【強化學習篇】--強化學習從初識到應用
2018-06-30
強化學習
微眾銀行楊強NeurIPS最新演講：聯邦推薦技術如何應對推薦場景化的發展
2019-12-19
強化學習(十七) 基於模型的強化學習與Dyna演算法框架
2019-02-15
強化學習模型演算法框架
阿里強化學習入選MIT十大突破“新技術”
2018-04-18
阿里強化學習MIT
強化學習的基礎缺陷
2018-07-28
強化學習
無模型的強化學習方法
2024-03-09
模型強化學習
AlphaGo原來是這樣執行的，一文詳解多智慧體強化學習的基礎和應用
2020-11-03
Go智慧體強化學習
強化學習-學習筆記3 | 策略學習
2022-07-05
強化學習筆記
演講的技巧
2020-10-25

「AlphaGo 之父」David Silver最新演講，傳授強化學習的十大原則

相關文章