再探強化學習

SkyRainWind發表於2024-03-14

原文網址 : https://www.cnblogs.com/SkyRainWind/p/18073201

主要記錄一下自己仔細學習 RL 時的感悟。記錄一下防止遺忘

Q-learning 和 DQN 都是基於值函式的（如 \(V\) 和 \(Q\) 函式），而策略梯度（policy gradient）則是基於策略的。後者顯式的訓練一個策略，對這個策略使用梯度下降等方法。
actor-critic 本質上是對 policy gradient 的改進。核心是在訓練策略（即 actor）的同時也訓練一個評價這個策略的 critic。在 policy gradient 中，我們是將當前 actor 下的 trajectory 計算出來之後（倒序）求出 loss，即 \(\gamma\) 作為 discount factor 的加權和。進行梯度下降即可。而在 actor-critic 中，我們額外再訓練一個 critic 作為衡量 actor 好壞的量度。critic 的 loss 可以設定為 \(r+\gamma V(s_{t+1})-V(s_t)\)，訓練時，需要先將 \(\gamma V(s_{t+1})\) 中的 \(V\) detach 一下，不更新。

OpenResty學習筆記03：再探WAF
2023-05-10
REST筆記
強化學習
2020-12-05
強化學習
強化學習-學習筆記13 | 多智慧體強化學習
2022-07-10
強化學習筆記智慧體
【強化學習篇】--強化學習案例詳解一
2018-06-30
強化學習
【強化學習】強化學習術語表（A-Z）
2020-10-25
強化學習
深度強化學習day01初探強化學習
2019-06-27
強化學習
強化學習10——迭代學習
2020-10-26
強化學習
matplotlib 強化學習
2020-06-21
強化學習
【強化學習篇】--強化學習從初識到應用
2018-06-30
強化學習
強化學習-學習筆記3 | 策略學習
2022-07-05
強化學習筆記
強化學習分類
2024-08-12
強化學習
強化學習筆記
2023-04-07
強化學習筆記
強化學習之CartPole
2021-06-14
強化學習
強化學習-簡介
2021-01-20
強化學習
【強化學習】強化學習的基本概念與程式碼實現
2018-03-21
強化學習
強化學習-學習筆記5 | AlphaGo
2022-07-06
強化學習筆記Go
深度學習及深度強化學習研修
2021-01-04
深度學習強化學習
強化學習-學習筆記2 | 價值學習
2022-07-04
強化學習筆記
深度學習+深度強化學習+遷移學習【研修】
2021-03-25
深度學習強化學習遷移學習
強化學習-學習筆記12 | Dueling Network
2022-07-09
強化學習筆記
深度學習及深度強化學習應用
2021-01-04
深度學習強化學習
關於強化學習、深度學習deeplearning研修
2020-11-25
強化學習深度學習
強化學習-task01
2020-10-20
強化學習
強化學習入門 -KDnuggets
2021-04-28
強化學習
強化學習(十七) 基於模型的強化學習與Dyna演算法框架
2019-02-15
強化學習模型演算法框架
火星探測器背後的人工智慧：從原理到實戰的強化學習
2023-12-12
人工智慧強化學習
強化學習-學習筆記15 | 連續控制
2022-07-14
強化學習筆記
強化學習-學習筆記8 | Q-learning
2022-07-07
強化學習筆記
強化學習-學習筆記10 | 經驗回放
2022-07-08
強化學習筆記
強化學習-學習筆記1 | 基礎概念
2022-07-04
強化學習筆記
強化學習-學習筆記4 | Actor-Critic
2022-07-05
強化學習筆記
深度學習、強化學習核心技術實戰
2021-03-21
深度學習強化學習
Tarjan再學習
2024-09-23
強化學習(十一) Prioritized Replay DQN
2018-10-16
強化學習Zed
強化學習(十四) Actor-Critic
2019-01-15
強化學習
強化學習（十）Double DQN (DDQN)
2018-10-12
強化學習
《深度強化學習》手稿開放了！
2018-10-17
強化學習
強化學習的基礎缺陷
2018-07-28
強化學習

再探強化學習

相關文章