這裡是強化學習入門，的入門 | 絕對新手友好

量子位發表於2018-04-05

原文網址 : https://blog.csdn.net/yh0vlde8vg8ep9vge/article/details/79831208

原作：Thomas Simonini
牆化栗子編譯自 FreeCodeCamp
量子位出品 | 公眾號 QbitAI

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

強化學習是機器學習裡面非常重要的一個派別。智慧體 (agent) 會不斷執行一些操作，通過結果來學習，在不同的環境中分別應該採取怎樣的行動。

在一系列教學文章裡，我們可以瞭解不同的架構，來解決強化學習的問題。Q學習，深度Q網路 (DQN) ，策略梯度 (Policy Gradients) ，演員-評論家 (Actor-Critic) ，以及近端策略優化 (PPO) 都是將要涉及的演算法。

這是本系列的第一篇文章，你可以抓住的重點有：

· 什麼是強化學習，以及為什麼獎勵最重要

· 強化學習的三種方式

· 深度強化學習的“深度”是什麼意思

以上幾點，在進入強化學習的複雜世界之前，可能還是有必要了解一下。

這是個友好的引子

強化學習的中心思想，就是讓智慧體在環境裡學習。每個行動會對應各自的獎勵，智慧體通過分析資料來學習，怎樣的情況下應該做怎樣的事情。

640?wx_fmt=jpeg

其實，這樣的學習過程和我們自然的經歷非常相似。想象自己是個小孩子，第一次看到了火，然後走到了火邊。

你感受到了溫暖。火是個好東西 (+1) 。

640?wx_fmt=jpeg

然後就試著去摸。臥槽，這麼燙 (-1) 。

640?wx_fmt=jpeg

結論是，在稍遠的地方火是好的，靠得太近就不好。

這就是人類學習的方式，與環境互動。強化學習也是一樣的道理，只是主角換成了計算機。

640?wx_fmt=png

比如，智慧體要學著玩超級馬里奧。強化學習過程可以用一個迴圈 (loop) 來表示：

· 智慧體在環境 (超級馬里奧) 裡獲得初始狀態S0 (遊戲的第一幀) ；

· 在state 0的基礎上，agent會做出第一個行動A0 (如向右走) ；

· 環境變化，獲得新的狀態S1 (A0發生後的某一幀) ；

· 環境給出了第一個獎勵R1 (沒死：+1) ；

於是，這個loop輸出的就是一個由狀態、獎勵和行動組成的序列。

而智慧體的目標就是讓預期累積獎勵最大化。

獎勵假說為根基

問題來了，目標為什麼是預期累積獎勵最大化？

因為，強化學習原本就是建立在獎勵假說的基礎之上。想表現好，就要多拿獎勵。

每一個時間步 (time step) 的累積獎勵都可以表示為：

640?wx_fmt=gif

或者

640?wx_fmt=png

不過，我們沒有辦法把獎勵直接相加。因為遊戲裡，越接近遊戲開始處的獎勵，就越容易獲得；而隨著遊戲的進行，後面的獎勵就沒有那麼容易拿到了。

把智慧體想成一隻小老鼠，對手是隻貓。它的目標就是在被貓吃掉之前，吃到最多的乳酪。

640?wx_fmt=png

就像圖中，離老鼠最近的乳酪很容易吃，而從貓眼皮底下順乳酪就難了。離貓越近，就越危險。

結果就是，從貓身旁獲取的獎勵會打折扣，吃到的可能性小，就算乳酪放得很密集也沒用。

那麼，這個折扣要怎麼算呢？

我們用γ表示折扣率，在0和1之間。

· γ越大，折扣越小。表示智慧體越在意長期的獎勵 (貓邊上的乳酪) 。

· γ越小，折扣越大。表示智慧體越在意短期的獎勵 (鼠邊上的乳酪) 。

這樣，累積獎勵表示出來就是：

640?wx_fmt=jpeg

簡單來說，離貓近一步，就乘上一個γ，表示獎勵越難獲得。

片段性任務還是連續性任務

強化學習裡的任務分兩種。

片段性任務 (Episodic Tasks)

這類任務，有個起點，有個終點。兩者之間有一堆狀態，一堆行動，一堆獎勵，和一堆新的狀態，它們共同構成了一“集”。

當一集結束，也就是到達終止狀態的時候，智慧體會看一下獎勵累積了多少，以此評估自己的表現。

然後，它就帶著之前的經驗開始一局新遊戲。這一次，智慧體做決定的依據會充分一些。

640?wx_fmt=png

以貓鼠迷宮為例的一集：

· 永遠從同一個起點開始

· 如果被貓吃掉或者走了超過20步，則遊戲結束

· 結束時，得到一系列狀態、行動、獎勵和新狀態

· 算出獎勵的總和 (看看錶現如何)

· 更有經驗地開始新遊戲

集數越多，智慧體的表現會越好。

連續性任務 (Continuing Tasks)

永遠不會有遊戲結束的時候。智慧體要學習如何選擇最佳的行動，和環境進行實時互動。就像自動駕駛汽車，並沒有過關拔旗子的事。

640?wx_fmt=gif

這樣的任務是通過時間差分學習 (Temporal Difference Learning) 來訓練的。每一個時間步，都會有總結學習，等不到一集結束再分析結果。

探索和開發之間的權衡

在討論強化學習的幾種方法之前，必須講到這件事。

· 探索 (Exploration) 是找到關於環境的更多資訊。

· 開發 (Exploitation) 是利用已知資訊來得到最多的獎勵。

要記住，目標是將預期累積獎勵最大化。正因如此，它有時候會陷入一種困境。

640?wx_fmt=png

小老鼠可以吃到無窮多塊分散的乳酪 (每塊+1) 。但在迷宮上方，有許多堆在起的乳酪(+1000) ，或者看成巨型乳酪。

如果我們只關心吃了多少，小老鼠就永遠不會去找那些大乳酪。它只會在安全的地方一塊一塊地吃，這樣獎勵累積比較慢，但它不在乎。

如果它跑去遠的地方，也許就會發現大獎的存在，但也有可能發生危險。

程式猿需要設定一種規則，讓智慧體能夠把握二者之間的平衡。

強化學習的三種方法

前菜吃完了，我們終於要開始講解決強化學習問題的方法了。三種方法分別是：基於價值（value-based）、基於策略（policy-based）以及基於模型（model-based）的方法。

基於價值 (Value-Based)

這種方法，目標是優化價值函式V(s)。

價值函式會告訴我們，智慧體在每個狀態裡得出的未來獎勵最大預期 (maximum expected future reward) 。

一個狀態下的函式值，是智慧體可以預期的未來獎勵積累總值，從當前狀態開始算。

640?wx_fmt=jpeg

智慧體要用這個價值函式來決定，每一步要選擇哪個行動。它會採取函式值 (就是Q值) 最大的那個行動。

640?wx_fmt=png

在迷宮問題中，每一步我們都選取最大函式值：-7，-6，-5，以此類推，達到目標。

基於策略 (Policy-Based)

這種方式，會直接優化策略函式π(s)，拋棄價值函式。

策略就是評判智慧體在特定時間點的表現。

640?wx_fmt=png

把每一個狀態和它所對應的最佳行動建立聯絡。

策略分為兩種，

· 確定性策略：某一個特定狀態下的策略，永遠都會給出同樣的行動。

· 隨機性策略：策略給出的是多種行動的可能性分佈。

640?wx_fmt=png

從圖中我們可以看到，策略直接指出了每一步的最佳行動。

基於模型 (Model-Based)

這種方法是對環境建模。這表示，我們要建立一個模型，來表示環境的行為。

問題是，每個環境都會需要一個不同的模型 (馬里奧每走一步，都會有一個新環境) 。這也是這個方法在強化學習中並不太常用的原因。

深度強化學習

所謂深度強化學習，就是在強化學習裡，加入深度神經網路。

如圖，拿Q學習和深度Q網路 (DQN) 來舉例。

640?wx_fmt=png

· Q學習，是利用一個傳統演算法建立Q-table，來幫助智慧體找到下一步要採取的行動。

· DQN，是利用深度神經網路來近似Q值。

恭喜你讀到現在。這第一篇文章的資訊量還是不小的。

640?wx_fmt=gif △ 根本停不下來

有興趣的同學，可以堅持服用一療程。

這裡是本系列大綱的傳送門：

https://simoninithomas.github.io/Deep_reinforcement_learning_Course/

— 完 —

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公眾號(QbitAI)對話介面，回覆“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態

強化學習入門 -KDnuggets
2021-04-28
強化學習
新手入門深度學習？這裡有7本必看書籍
2018-05-29
深度學習
JavaScript新手入門學習系列
2020-11-25
JavaScript
TensorFlow入門簡介，新手請看這裡！
2018-08-02
如何學習Python，新手如何入門
2021-04-07
Python
2019最全Python入門學習路線，不是我吹，絕對是最全
2019-01-20
Python
Java新手入門學習路線圖
2020-11-20
Java
新手入門前端，需要學習的基礎內容。
2020-10-16
前端
新手入門，webpack入門詳細教程
2018-11-15
Web
Linux新手入門怎麼學?如何學習好Linux?
2020-04-23
Linux
**Git新手入門**
2020-10-20
Git
typer 新手入門
2024-09-27
新手學習Java，如何快速從入門到精通！
2022-01-19
Java
技術 | 強化學習入門以及程式碼實現
2019-02-28
強化學習
python入門學習這篇夠了，強烈建議收藏！
2019-01-24
Python
大資料學習入門看什麼書？大資料新手怎麼入門？
2018-10-12
大資料
Linux系統新手入門學習的四點建議
2019-08-18
Linux
Jwt的新手入門教程
2021-09-21
JWT
[MySQL光速入門]008 SQL強化練習
2019-04-18
MySql
WordPress 是什麼？TechMoon 科技月球 - 新手入門教學
2019-02-26
Linux運維新手如何快速入門？Linux學習方法
2020-09-27
Linux運維
Latex排版學習筆記(2)——Latex新手入門教程
2020-04-05
筆記
這可能是最簡單易懂的機器學習入門
2018-12-31
機器學習
React新手入門教程
2023-12-13
React
MongoDB 新手入門 - Aggregation
2022-05-30
MongoDB
MongoDB 新手入門 - CRUD
2022-05-31
MongoDB
Android新手入門1
2020-12-30
Android
Windows Terminal 新手入門
2020-12-31
Windows
Jmeter新手入門必看
2020-12-09
JMeter
新手如何入門linux，linux原來還可以這麼學
2022-01-22
Linux
ROS入門學習
2018-11-10
ROS
nuxt 入門學習
2019-01-07
UX
Nginx入門學習
2020-06-17
Nginx
mybatis入門學習
2020-07-05
MyBatis
Linux入門學習
2019-05-28
Linux
GORM學習入門
2022-06-23
GoORM
Vue入門學習
2021-04-27
Vue
MyBatisPlus入門學習
2021-05-03
MyBatis

這裡是強化學習入門，的入門 | 絕對新手友好

原作：Thomas Simonini牆化栗子 編譯自 FreeCodeCamp量子位 出品 | 公眾號 QbitAI

這是個友好的引子

獎勵假說為根基

片段性任務還是連續性任務

片段性任務 (Episodic Tasks)

連續性任務 (Continuing Tasks)

探索和開發之間的權衡

強化學習的三種方法

基於價值 (Value-Based)

基於策略 (Policy-Based)

基於模型 (Model-Based)

深度強化學習

相關文章

原作：Thomas Simonini
牆化栗子編譯自 FreeCodeCamp
量子位出品 | 公眾號 QbitAI