深度強化學習中稀疏獎勵問題Sparse Reward

Dawn嗯發表於2021-08-03

原文網址 : https://www.cnblogs.com/Dawnae/p/15096842.html

強化學習

Sparse Reward

推薦資料

強化學習演算法在被引入深度神經網路後，對大量樣本的需求更加明顯。如果智慧體在與環境的互動過程中沒有獲得獎勵，那麼該樣本在基於值函式和基於策略梯度的損失中的貢獻會很小。

針對解決稀疏獎勵問題的研究主要包括：¹

Reward Shaping：獎勵設計與學習
經驗回放機制
探索與利用
多目標學習和輔助任務

1. Reward Shaping

人為設計的 “密集”獎勵。

例如，在機械臂“開門”的任務中，原始的稀疏獎勵設定為：若機械臂把門開啟，則給予“＋１”獎勵，其餘情況下均給予“０”獎勵。然而，由於任務的複雜性，機械臂從隨機策略開始，很難通過自身探索獲得獎勵。為了簡化訓練過程，可以使用人為設計的獎勵：１)在機械臂未碰到門把手時，將機械臂與門把手距離的倒數作為獎勵；２)當機械臂接觸門把手時，給予“＋0.１”獎勵；３)當機械臂轉動門把手時，給予“＋０.５”獎勵；４)當機械臂完成開門時，給予“＋１”獎勵。這樣，通過人為設計的密集獎勵，可以引導機械臂完成開門的操作，簡化訓練過程。

2. 逆向強化學習

針對人為設計獎勵中存在的問題，Ng等²提出了從最優互動序列中學習獎勵函式的思路，此類方法稱為”逆強化學習”。

3. 探索與利用（好奇法）：

在序列決策中，智慧體可能需要犧牲當前利益來選擇非最優動作，期望能夠獲得更大的長期回報。

在 DRL領域中使用的探索與利用方法主要包括兩類：基於計數的方法和基於內在激勵的方法。其目的是構造虛擬獎勵，用於和真實獎勵函式共同學習。由於真實的獎勵是稀疏的，使用虛擬獎勵可以加快學習的程式。

ICM³（逆環境模型）—— 改進的基於內在激勵的方法

Network 1：預測的狀態S與實際狀態S差別越大，回報r越大，鼓勵冒險
Network 2：輸入 \(S_t\) 和 \(S_{t+1}\) ，預測動作 \(a_t\) ，與真實動作差別大時，表示無關緊要的狀態。
ICM 通過學習可以在特徵空間中去除與預測動作無關的狀態特徵，在特徵空間中構建環境模型可以去除環境噪聲。

4. 多目標學習——層次強化學習

智慧體可以從已經到達的位置來獲得獎勵。在訓練中使用虛擬目標替代原始目標，使智慧體即使在訓練初期也能很快獲得獎勵，極大地加速了學習過程。
將一個單一目標，拆解為多個階段的多層級的目標。

5. 輔助任務

在稀疏獎勵情況下，當原始任務難以完成時，往往可以通過設定輔助任務的方法加速學習和訓練。

Curriculum Learning，“課程式”強化學習：

當完成原始任務較為困難時，獎勵的獲取是困難的。此時，智慧體可以先從簡單的、相關的任務開始學習，然後不斷增加任務的難度，逐步學習更加複雜的任務。

直接新增輔助任務：第二類方法是直接在原任務的基礎上新增並行的輔助任務，原任務和輔助任務共同學習。

參考文獻

[1] 楊惟軼,白辰甲,蔡超,趙英男,劉鵬.深度強化學習中稀疏獎勵問題研究綜述[J].電腦科學,2020,47(03):182-191.

深度強化學習——第十章稀疏獎勵
2020-11-05
強化學習
如何解決稀疏獎勵下的強化學習？
2020-07-06
強化學習
強化學習五大方面-獎勵與策略結構
2021-01-22
強化學習
深度學習及深度強化學習研修
2021-01-04
深度學習強化學習
深度學習及深度強化學習應用
2021-01-04
深度學習強化學習
深度學習+深度強化學習+遷移學習【研修】
2021-03-25
深度學習強化學習遷移學習
深度強化學習day01初探強化學習
2019-06-27
強化學習
關於強化學習、深度學習deeplearning研修
2020-11-25
強化學習深度學習
《深度強化學習》手稿開放了！
2018-10-17
強化學習
強化學習-學習筆記11 | 解決高估問題
2022-07-08
強化學習筆記
深度學習、強化學習核心技術實戰
2021-03-21
深度學習強化學習
[20201104]關於稀疏檔案(sparse files).txt
2020-11-04
淺談深度學習落地問題
2018-10-15
深度學習
深度強化學習核心技術實戰
2021-03-20
強化學習
稀疏表示學習
2020-04-06
淺談深度學習的落地問題
2021-02-21
深度學習
機器學習、深度學習、強化學習課程超級大列表！
2019-11-06
機器學習深度學習強化學習
強化學習(十六) 深度確定性策略梯度(DDPG)
2019-02-01
強化學習梯度
RIME：用交叉熵 loss 大小分辨 preference 是否正確 + 內在獎勵預訓練 reward model
2024-07-25
熵
學習筆記：深度學習中的正則化
2020-04-06
筆記深度學習
什麼是深度強化學習？又是如何應用在遊戲中的？
2019-10-18
強化學習遊戲
深度強化學習在時序資料壓縮中的應用
2020-12-21
強化學習
深度學習之新聞多分類問題
2021-04-15
深度學習
深度強化學習技術開發與應用
2022-08-10
強化學習
新的深度學習優化器Ranger：RAdam + LookAhead強強結合
2020-01-02
深度學習優化Ranger
深度學習中的優化方法（二）
2021-08-04
深度學習優化
深度學習中的優化方法（一）
2021-07-27
深度學習優化
獎勵關
2024-03-10
【強化學習】變革尚未成功：深度強化學習研究的短期悲觀與長期樂觀
2018-03-25
強化學習
備戰世界盃！先用深度學習與強化學習踢場 FIFA 18
2018-06-07
深度學習強化學習
流式深度學習終於奏效了！強化學習之父Richard Sutton力薦
2024-11-29
深度學習強化學習
深度學習問題記錄：Building your Deep Neural
2021-09-09
深度學習UI
強化學習
2020-12-05
強化學習
如何最佳化測試時計算？解決「元強化學習」問題
2025-02-10
強化學習
強化學習-學習筆記13 | 多智慧體強化學習
2022-07-10
強化學習筆記智慧體
谷歌論文：使用深度強化學習的晶片佈局
2020-05-07
谷歌強化學習晶片
【強化學習篇】--強化學習案例詳解一
2018-06-30
強化學習
【強化學習】強化學習術語表（A-Z）
2020-10-25
強化學習