《深度強化學習》希望幫助初學者瞭解深度強化學習,也希望為教授、研究人員、學生、工程師、管理人員、投資者等廣大讀者提供一份深度強化學習參考資料。
她在描繪深度強化學習領域大方向的同時兼顧了許多技術細節。她在歷史背景中討論最新進展。她努力回答了下面三個問題:1)為什麼用深度學習?2)最前沿的發展有哪些?3)有什麼問題及解決方案?手稿中難免有不足乃至錯誤之處,真誠歡迎寶貴建議和意見。
這個部落格收集了很多深度強化學習的資料: https://medium.com/@yuxili/resources-for-deep-reinforcement-learning-a5fdf2dc730f.
《深度強化學習》討論了六個核心元素 (core elements): 值函式 (value function)、策略 (policy)、獎賞 (reward)、模型 (model)、探索與利用 (exploration vs. exploitation)、以及表徵 (representation);
六個重要機制 (important mechanisms):注意力與儲存機制 (attention and memory)、無監督學習 (unsupervised learning)、層次強化學習 (hierarchical RL)、多智慧體強化學習 (multi-agent RL)、關係強化學習 (relational RL)、和元學習 (learning to learn);
以及十二個應用場景 (applications):遊戲 (games)、機器人學 (robotics)、自然語言處理 (natural language processing, NLP)、計算機視覺 (computer vision)、金融 (finance)、商務管理 (business management)、醫療 (healthcare)、教育 (education)、能源 (energy)、交通 (transportation)、計算機系統 (computer systems)、以及科學、工程和藝術 (science, engineering, and art).
深度強化學習最近取得了世人矚目的成績,比如,應用於雅達利遊戲 (Atari games) 上的 DQN 演算法吹響了這波深度強化學習前進的號角;在計算機圍棋 (AlphaGo/AlphaGo Zero) 和德州撲克 (DeepStack) 上面取得了人工智慧里程碑級別的成就。深度強化學習有很多新穎的演算法被研發出來,比如,DQN、 A3C、TRPO、PPO、DDPG、Trust-PCL、GPS、UNREAL, 等等。
深度強化學習也被應用於很多很廣的方向,比如,奪旗遊戲 (Capture the Flag)、刀塔 (Dota 2)、星際爭霸 (StarCraft II)、機器人學、動畫人物模擬、智慧對話、神經元網路結構設計、機器學習自動化、資料中心降溫系統、推薦系統、資料擴充、模型壓縮、組合優化、程式合成、定理證明、醫學成像、音樂合成、化學逆合成,等等。
這個部落格收集了很多強化學習的應用場景: https://medium.com/@yuxili/rl-applications-73ef685c07eb
什麼情況下強化學習會有幫助?答案是:如果一個問題可以被描述成或轉化成序貫決策 (sequential decision making) 問題,可以構造出強化學習需要用的狀態 (state)、動作 (action)、可能還有獎賞 (reward) 等元素的時候。有時候一個問題可以用強化學習解決,但這個問題從表面上看可能不像強化學習問題。籠統地說,如果一個問題中包含人工設計的某種「策略」,那麼強化學習就有可能發揮作用,自動化並且優化這些策略。創造性會在核心元素、重要機制、應用場景等方面進一步向前推動深度強化學習的發展。
深度強化學習雖然已經取得了很多傲人的成績,但是,她也有很多問題亟需解決,比如成績分配 (credit assignment), 稀疏獎賞 (sparse reward), 取樣效率 (sample efficiency), 不穩定性 (instability), 發散性 (divergence), 可解釋性 (interpretability), 安全性 (safety),等等;甚至可複製性 (reproducibility) 仍然是一個問題。
《深度強化學習》提出了六個研究方向,同時作為挑戰和機遇。應該提到的是,在這些方向,已經有了一些進展,比如,Dopamine、TStarBots、 unsupervised video object segmentation for deep RL、generative query network、neural-symbolic learning, universal planning networks, causal InfoGAN, meta-gradient RL, 等等。(這些進展的參考資料請參閱英文原版,見文末。) 這些方向的發展,會大幅度促進強化學習乃至人工智慧的發展。
系統地比較深度強化學習演算法
「解決」多智慧體問題
基於實體 (entities) 學習,而不只是基於原始資料學習
為強化學習設計最優的表徵形式
自動化強化學習 (AutoRL)
研發強化學習殺手級應用
希望強化學習可以與人工智慧深度結合,在端到端 (end-to-end) 的學習方式中加入更多智慧去完成從原始輸入到決策的設計工作、加入知識、加入常識、以更高效、更容易理解的方式去學習、同時避免犯顯然的錯誤;而不是像以前深度學習那樣以黑盒子的方式學習。
深度學習和強化學習分別於 2013 年和 2017 年被《麻省理工學院科技評論》評選為十項突破性技術之一;她們會在通向強人工智慧的道路上發揮關鍵作用。David Silver 提出了一個假設:人工智慧=強化學習+深度學習。深度學習和強化學習都會進一步繁榮發展。深度學習正在經歷爆炸性的大發展。而現在正是培育、教育、引領強化學習市場的大好時機。
深度學習在這次第三波人工智慧的蓬勃發展中,會發揮越來越深遠的影響;我們也在深度學習的很多成就中看到了她的作用。強化學習提供更通用的學習和決策模式;她會深遠影響深度學習、機器學習、乃至人工智慧的進一步發展。
強化學習時代馬上就來。讓我們做好準備!
歡迎閱讀本文的英文版,Introducing Deep Reinforcement Learning, https://medium.com/@yuxili/deeprl-6c8c48b6489b; 裡面包含了大量的超連結。歡迎下載閱讀《深度強化學習》,Deep Reinforcement Learning, arXiv 地址:https://arxiv.org/abs/1810.06339