《深度強化學習》手稿開放了！

機器之心發表於2018-10-17

原文網址 : http://www.jiqizhixin.com/articles/2018-10-17-9

《深度強化學習》希望幫助初學者瞭解深度強化學習，也希望為教授、研究人員、學生、工程師、管理人員、投資者等廣大讀者提供一份深度強化學習參考資料。

她在描繪深度強化學習領域大方向的同時兼顧了許多技術細節。她在歷史背景中討論最新進展。她努力回答了下面三個問題：1）為什麼用深度學習？2）最前沿的發展有哪些？3）有什麼問題及解決方案？手稿中難免有不足乃至錯誤之處，真誠歡迎寶貴建議和意見。

這個部落格收集了很多深度強化學習的資料： https://medium.com/@yuxili/resources-for-deep-reinforcement-learning-a5fdf2dc730f.

《深度強化學習》手稿開放了！

《深度強化學習》討論了六個核心元素 (core elements): 值函式 (value function)、策略 (policy)、獎賞 (reward)、模型 (model)、探索與利用 (exploration vs. exploitation)、以及表徵 (representation);

六個重要機制 (important mechanisms)：注意力與儲存機制 (attention and memory)、無監督學習 (unsupervised learning)、層次強化學習 (hierarchical RL)、多智慧體強化學習 (multi-agent RL)、關係強化學習 (relational RL)、和元學習 (learning to learn);

以及十二個應用場景 (applications)：遊戲 (games)、機器人學 (robotics)、自然語言處理 (natural language processing, NLP)、計算機視覺 (computer vision)、金融 (finance)、商務管理 (business management)、醫療 (healthcare)、教育 (education)、能源 (energy)、交通 (transportation)、計算機系統 (computer systems)、以及科學、工程和藝術 (science, engineering, and art).

《深度強化學習》手稿開放了！

深度強化學習最近取得了世人矚目的成績，比如，應用於雅達利遊戲 (Atari games) 上的 DQN 演算法吹響了這波深度強化學習前進的號角；在計算機圍棋 (AlphaGo/AlphaGo Zero) 和德州撲克 (DeepStack) 上面取得了人工智慧里程碑級別的成就。深度強化學習有很多新穎的演算法被研發出來，比如，DQN、 A3C、TRPO、PPO、DDPG、Trust-PCL、GPS、UNREAL, 等等。

深度強化學習也被應用於很多很廣的方向，比如，奪旗遊戲 (Capture the Flag)、刀塔 (Dota 2)、星際爭霸 (StarCraft II)、機器人學、動畫人物模擬、智慧對話、神經元網路結構設計、機器學習自動化、資料中心降溫系統、推薦系統、資料擴充、模型壓縮、組合優化、程式合成、定理證明、醫學成像、音樂合成、化學逆合成，等等。

這個部落格收集了很多強化學習的應用場景： https://medium.com/@yuxili/rl-applications-73ef685c07eb

什麼情況下強化學習會有幫助？答案是：如果一個問題可以被描述成或轉化成序貫決策 (sequential decision making) 問題，可以構造出強化學習需要用的狀態 (state)、動作 (action)、可能還有獎賞 (reward) 等元素的時候。有時候一個問題可以用強化學習解決，但這個問題從表面上看可能不像強化學習問題。籠統地說，如果一個問題中包含人工設計的某種「策略」，那麼強化學習就有可能發揮作用，自動化並且優化這些策略。創造性會在核心元素、重要機制、應用場景等方面進一步向前推動深度強化學習的發展。

深度強化學習雖然已經取得了很多傲人的成績，但是，她也有很多問題亟需解決，比如成績分配 (credit assignment), 稀疏獎賞 (sparse reward), 取樣效率 (sample efficiency), 不穩定性 (instability), 發散性 (divergence), 可解釋性 (interpretability), 安全性 (safety)，等等；甚至可複製性 (reproducibility) 仍然是一個問題。

《深度強化學習》手稿開放了！

《深度強化學習》提出了六個研究方向，同時作為挑戰和機遇。應該提到的是，在這些方向，已經有了一些進展，比如，Dopamine、TStarBots、 unsupervised video object segmentation for deep RL、generative query network、neural-symbolic learning, universal planning networks, causal InfoGAN, meta-gradient RL, 等等。(這些進展的參考資料請參閱英文原版，見文末。) 這些方向的發展，會大幅度促進強化學習乃至人工智慧的發展。

系統地比較深度強化學習演算法
「解決」多智慧體問題
基於實體 (entities) 學習，而不只是基於原始資料學習
為強化學習設計最優的表徵形式
自動化強化學習 (AutoRL)
研發強化學習殺手級應用

希望強化學習可以與人工智慧深度結合，在端到端 (end-to-end) 的學習方式中加入更多智慧去完成從原始輸入到決策的設計工作、加入知識、加入常識、以更高效、更容易理解的方式去學習、同時避免犯顯然的錯誤；而不是像以前深度學習那樣以黑盒子的方式學習。

《深度強化學習》手稿開放了！

深度學習和強化學習分別於 2013 年和 2017 年被《麻省理工學院科技評論》評選為十項突破性技術之一；她們會在通向強人工智慧的道路上發揮關鍵作用。David Silver 提出了一個假設：人工智慧=強化學習+深度學習。深度學習和強化學習都會進一步繁榮發展。深度學習正在經歷爆炸性的大發展。而現在正是培育、教育、引領強化學習市場的大好時機。

深度學習在這次第三波人工智慧的蓬勃發展中，會發揮越來越深遠的影響；我們也在深度學習的很多成就中看到了她的作用。強化學習提供更通用的學習和決策模式；她會深遠影響深度學習、機器學習、乃至人工智慧的進一步發展。

強化學習時代馬上就來。讓我們做好準備！

歡迎閱讀本文的英文版，Introducing Deep Reinforcement Learning, https://medium.com/@yuxili/deeprl-6c8c48b6489b; 裡面包含了大量的超連結。歡迎下載閱讀《深度強化學習》，Deep Reinforcement Learning, arXiv 地址：https://arxiv.org/abs/1810.06339

深度學習及深度強化學習研修
2021-01-04
深度學習強化學習
深度學習及深度強化學習應用
2021-01-04
深度學習強化學習
深度學習+深度強化學習+遷移學習【研修】
2021-03-25
深度學習強化學習遷移學習
深度強化學習day01初探強化學習
2019-06-27
強化學習
關於強化學習、深度學習deeplearning研修
2020-11-25
強化學習深度學習
深度強化學習技術開發與應用
2022-08-10
強化學習
深度學習、強化學習核心技術實戰
2021-03-21
深度學習強化學習
深度強化學習核心技術實戰
2021-03-20
強化學習
機器學習、深度學習、強化學習課程超級大列表！
2019-11-06
機器學習深度學習強化學習
強化學習(十六) 深度確定性策略梯度(DDPG)
2019-02-01
強化學習梯度
新的深度學習優化器Ranger：RAdam + LookAhead強強結合
2020-01-02
深度學習優化Ranger
【強化學習】變革尚未成功：深度強化學習研究的短期悲觀與長期樂觀
2018-03-25
強化學習
新鮮開源：基於TF2.0的深度強化學習平臺
2019-02-23
TF2強化學習
備戰世界盃！先用深度學習與強化學習踢場 FIFA 18
2018-06-07
深度學習強化學習
流式深度學習終於奏效了！強化學習之父Richard Sutton力薦
2024-11-29
深度學習強化學習
強化學習
2020-12-05
強化學習
強化學習-學習筆記13 | 多智慧體強化學習
2022-07-10
強化學習筆記智慧體
谷歌論文：使用深度強化學習的晶片佈局
2020-05-07
谷歌強化學習晶片
深度強化學習——第十章稀疏獎勵
2020-11-05
強化學習
深度強化學習中稀疏獎勵問題Sparse Reward
2021-08-03
強化學習
【強化學習篇】--強化學習案例詳解一
2018-06-30
強化學習
【強化學習】強化學習術語表（A-Z）
2020-10-25
強化學習
DeepMind開源強化學習庫TRFL
2018-10-18
強化學習
Google開源TensorFlow強化學習框架！
2018-08-28
Go強化學習框架
強化學習10——迭代學習
2020-10-26
強化學習
百度正式釋出PaddlePaddle深度強化學習框架PARL
2019-01-18
強化學習框架
深度強化學習資料（視訊+PPT+PDF下載）
2018-06-22
強化學習
AAAI 2020 | 52篇深度強化學習accept論文彙總
2020-02-03
AI強化學習
深度學習——正則化
2022-01-25
深度學習
matplotlib 強化學習
2020-06-21
強化學習
【強化學習篇】--強化學習從初識到應用
2018-06-30
強化學習
一文讀懂人工智慧、機器學習、深度學習、強化學習的關係（必看）
2019-02-14
人工智慧機器學習深度學習強化學習
機器學習 — AdaBoost演算法（手稿+程式碼）
2018-09-15
機器學習演算法
12. 2020年秋季UC Berkeley CS285《深度強化學習》第4課：強化學習導論_2/6【中英字幕】
2020-11-25
強化學習
深度強化學習第十二章——Deep Deterministic Policy Gradient（DDPG）
2020-11-08
強化學習
強化學習-學習筆記3 | 策略學習
2022-07-05
強化學習筆記
再探強化學習
2024-03-14
強化學習
強化學習分類
2024-08-12
強化學習

《深度強化學習》手稿開放了！

相關文章