深度強化學習——第十章稀疏獎勵

Hogwarts掃地老太太發表於2020-11-05

原文網址 : https://blog.csdn.net/weixin_45549370/article/details/109523123

深度強化學習——第十章稀疏獎勵

1.Sparse Reward

參考筆記：
1. datawhale 深度強化學習筆記
2. 天津包子餡兒的知乎深度強化學習專欄

1.Sparse Reward

1.1 問題提出

在沒有辦法得到 reward 的情況下，訓練 agent 是非常困難的。舉例來說，假設你要訓練一個機器手臂，然後桌上有一個螺絲釘跟螺絲起子，那你要訓練它用螺絲起子把螺絲釘栓進去，那這個很難，為什麼？因為你知道一開始你的 agent 是什麼都不知道的，它唯一能夠做不同的 action 的原因是 exploration。舉例來說，你在做 Q-learning 的時候，會有一些隨機性，讓它去採取一些過去沒有采取過的 action，那你要隨機到說，它把螺絲起子撿起來，再把螺絲栓進去，然後就會得到 reward 1，這件事情是永遠不可能發生的。所以，不管你的 actor 做了什麼事情，它得到 reward 永遠都是 0，對它來說不管採取什麼樣的 action 都是一樣糟或者是一樣的好。所以，它最後什麼都不會學到。

如果環境中的 reward 非常 sparse，reinforcement learning 的問題就會變得非常的困難，但是人類可以在非常 sparse 的 reward 上面去學習。我們的人生通常多數的時候，我們就只是活在那裡，都沒有得到什麼 reward 或是 penalty。但是，人還是可以採取各種各式各樣的行為。所以，一個真正厲害的 AI 應該能夠在 sparse reward 的情況下也學到要怎麼跟這個環境互動。

1.2 解決方案

1.2.1 reward shaping

Reward shaping 的意思是說環境有一個固定的 reward，它是真正的 reward，但是為了讓 agent 學出來的結果是我們要的樣子，我們刻意地設計了一些 reward 來引導我們的 agent。

Example 1
把小孩當成一個 agent 。
那一個小孩，他可以 take 兩個 actions，一個 action 是他可以出去玩，那他出去玩的話，在下一秒鐘它會得到 reward 1。但是他在月考的時候，成績可能會很差。所以在100 個小時之後呢，他會得到 reward -100。然後，他也可以決定要念書，然後在下一個時間，因為他沒有出去玩，所以他覺得很不爽，所以他得到 reward -1。但是在 100 個小時後，他可以得到 reward 100。但對一個小孩來說，他可能就會想要 take play 而不是 take study。我們計算的是 accumulated reward，但也許對小孩來說，他的 discount factor 會很大，所以他就不太在意未來的reward。而且因為他是一個小孩，他還沒有很多 experience，所以他的 Q-function estimate 是非常不精準的。所以要他去 estimate 很遠以後會得到的 accumulated reward，他其實是預測不出來的。所以這時候大人就要引導他，怎麼引導呢？就騙他說，如果你坐下來念書我就給你吃一個棒棒糖。所以，對他來說，下一個時間點會得到的 reward 就變成是positive 的。所以他就覺得說，也許 take 這個 study 是比 play 好的。雖然這並不是真正的 reward，而是其他人騙他的reward，告訴他說你採取這個 action 是好的。
Example 2
Facebook 玩 VizDoom 的 agent。VizDoom 是一個第一人射擊遊戲，在這個射擊遊戲中，殺了敵人就得到 positive reward，被殺就得到 negative reward。他們設計了一些新的 reward，用新的 reward 來引導 agent 讓他們做得更好，這不是遊戲中真正的 reward。比如說掉血就扣 0.05 的分數，彈藥減少就扣分，撿到補給包就加分，呆在原地就扣分，移動就加分。活著會扣一個很小的分數，因為不這樣做的話，machine 會只想活著，一直躲避敵人，這樣會讓 machine 好戰一點。表格中的引數都是調出來的。
缺陷
因為我們需要 domain knowledge，舉例來說，機器人想要學會的事情是把藍色的板子從這個柱子穿過去。機器人很難學會，我們可以做 reward shaping。一個貌似合理的說法是，藍色的板子離柱子越近，reward 越大。但是 machine 靠近的方式會有問題，它會用藍色的板子打柱子。而我們要把藍色板子放在柱子上面去，才能把藍色板子穿過柱子。這種 reward shaping 的方式是沒有幫助的，那至於什麼 reward shaping 有幫助，什麼 reward shaping 沒幫助，會變成一個 domain knowledge，你要去調的

深度強化學習中稀疏獎勵問題Sparse Reward
2021-08-03
強化學習
如何解決稀疏獎勵下的強化學習？
2020-07-06
強化學習
強化學習五大方面-獎勵與策略結構
2021-01-22
強化學習
深度學習及深度強化學習研修
2021-01-04
深度學習強化學習
深度學習及深度強化學習應用
2021-01-04
深度學習強化學習
深度學習+深度強化學習+遷移學習【研修】
2021-03-25
深度學習強化學習遷移學習
深度強化學習day01初探強化學習
2019-06-27
強化學習
關於強化學習、深度學習deeplearning研修
2020-11-25
強化學習深度學習
《深度強化學習》手稿開放了！
2018-10-17
強化學習
深度學習、強化學習核心技術實戰
2021-03-21
深度學習強化學習
深度強化學習核心技術實戰
2021-03-20
強化學習
稀疏表示學習
2020-04-06
機器學習、深度學習、強化學習課程超級大列表！
2019-11-06
機器學習深度學習強化學習
強化學習(十六) 深度確定性策略梯度(DDPG)
2019-02-01
強化學習梯度
深度強化學習技術開發與應用
2022-08-10
強化學習
新的深度學習優化器Ranger：RAdam + LookAhead強強結合
2020-01-02
深度學習優化Ranger
獎勵關
2024-03-10
【強化學習】變革尚未成功：深度強化學習研究的短期悲觀與長期樂觀
2018-03-25
強化學習
備戰世界盃！先用深度學習與強化學習踢場 FIFA 18
2018-06-07
深度學習強化學習
流式深度學習終於奏效了！強化學習之父Richard Sutton力薦
2024-11-29
深度學習強化學習
強化學習
2020-12-05
強化學習
強化學習-學習筆記13 | 多智慧體強化學習
2022-07-10
強化學習筆記智慧體
谷歌論文：使用深度強化學習的晶片佈局
2020-05-07
谷歌強化學習晶片
【強化學習篇】--強化學習案例詳解一
2018-06-30
強化學習
【強化學習】強化學習術語表（A-Z）
2020-10-25
強化學習
深度學習筆記——常用的啟用（激勵）函式
2020-08-15
深度學習筆記函式
強化學習10——迭代學習
2020-10-26
強化學習
百度正式釋出PaddlePaddle深度強化學習框架PARL
2019-01-18
強化學習框架
深度強化學習資料（視訊+PPT+PDF下載）
2018-06-22
強化學習
AAAI 2020 | 52篇深度強化學習accept論文彙總
2020-02-03
AI強化學習
深度學習——正則化
2022-01-25
深度學習
matplotlib 強化學習
2020-06-21
強化學習
【強化學習篇】--強化學習從初識到應用
2018-06-30
強化學習
一文讀懂人工智慧、機器學習、深度學習、強化學習的關係（必看）
2019-02-14
人工智慧機器學習深度學習強化學習
12. 2020年秋季UC Berkeley CS285《深度強化學習》第4課：強化學習導論_2/6【中英字幕】
2020-11-25
強化學習
龍蜥社群成立DeepRec SIG，開源大規模稀疏模型深度學習引擎
2022-04-12
模型深度學習
深度強化學習第十二章——Deep Deterministic Policy Gradient（DDPG）
2020-11-08
強化學習
機器學習之稀疏性正則化：L1 正則化
2020-06-28
機器學習

深度強化學習——第十章稀疏獎勵