RL 基礎 | Policy Gradient 的推導

MoonOut發表於2024-03-21

原文網址 : https://www.cnblogs.com/moonout/p/18086974

去聽了 hzxu 老師的 DRL 課，感覺終於聽懂了，記錄一下…

0 我們想做什麼
1 三個數學 trick
2 對單個 transition 的 policy gradient
3 對整個 trajectory 的 policy gradient
4 REINFORCE 演算法

相關連結：

RL 基礎 | Value Iteration 的收斂性證明
RL 基礎 | Policy Iteration 的收斂性證明

0 我們想做什麼

我們想最大化的東西： \(J(\theta) = \mathbb E_\tau[R(\tau)]\) ，其中 R 是軌跡的 reward 求和（或 discount 求和）。

我們希望，期望下的軌跡的 reward 求和（reward discounted 求和）最大。

1 三個數學 trick

①： \(\nabla_\theta\log z = \frac1z\nabla_\theta z\)

②： \(\mathbb E_{x\sim p(x)}[f(x)] = \int p(x)f(x)dx\)

③： \(a/b = [a\cdot p(x)] / [b\cdot p(x)]\)

2 對單個 transition 的 policy gradient

\[\begin{aligned} \nabla_\theta\mathbb{E}_{a\sim p(a|s;\theta)}[r(a)]& =\nabla_\theta\sum_ap(a\mid s;\theta)r(a) \\ &=\sum_ar(a)\nabla_\theta p(a\mid s;\theta) \\ &=\sum_ar(a)p(a\mid s;\theta)\frac{\nabla_\theta p(a\mid s;\theta)}{p(a\mid s;\theta)} \\ &=\sum_a^ar(a)p(a\mid s;\theta)\nabla_\theta\log p(a\mid s;\theta) \\ &=\mathbb{E}_{a\sim p(a|s;\theta)}[r(a)\nabla_\theta\log p(a\mid s;\theta)] \end{aligned} \]

結論：如果想最大化期望下的 r(s,a)，可以把 r(s,a) 放 \(\nabla\) 外面，去對 log π(a|s) 求梯度。

3 對整個 trajectory 的 policy gradient

先計算 trajectory 的機率：

\[p(\tau\mid\theta)=\underbrace{\mu(s_0)}_{\text{initial state distribution}} \cdot \prod_{t=0}^{T-1}[\underbrace{\pi(a_t\mid s_t,\theta)}_{\text{policy}}\cdot\underbrace{p(s_{t+1},r_t\mid s_t,a_t)}_{\text{transition fn.}}] \\ \]

然後，對單個 transition，我們有

\[\nabla_\theta\mathbb{E}_{x\sim p(x|s;\theta)}[r(x)]=\mathbb{E}_{x\sim p(x|s;\theta)}[r(x)\nabla_\theta\log p(x\mid s;\theta)] \]

對於整個 trajectory 的 total reward 的梯度，應用跟 2 相同的方法（分數線上下同乘 p(τ|theta) ），可以得到

\[\nabla_\theta\mathbb{E}_\tau[R(\tau)]=\mathbb{E}_\tau[\underbrace{\nabla_\theta\log p(\tau\mid\theta)}_{\text{What is this?}}\underbrace{R(\tau)}_{\text{Reward of a trajectory}}] \]

現在，讓我們來看 \(\nabla_\theta\log p(\tau\mid\theta)\) 。

\[\begin{aligned} \log p(\tau\mid\theta)& =\log\mu(s_0)+\log\prod_{t=0}^{T-1}[\pi(a_t\mid s_t,\theta)\cdot p(s_{t+1},r_t\mid s_t,a_t)] \\ &=\log\mu(s_0)+\sum_{t=0}^{T-1}\log[\pi(a_t\mid s_t,\theta)\cdot p(s_{t+1},r_t\mid s_t,a_t)] \\ &=\log\mu(s_0)+\sum_{t=0}^{T-1}[\log\pi(a_t\mid s_t,\theta)+\log p(s_{t+1},r_t\mid s_t,a_t)] \\ \end{aligned} \]

其中，
第一行是把 trajectory 的機率展開；
第二行第三行都是把 log(A×B) 變成 logA + logB；
然後發現，只有中間這一項 \(\sum_{t=0}^{T-1}\log\pi(a_t\mid s_t,\theta)\) 帶 θ，因此，前後兩項都不用跟 θ 求梯度了。

由此，我們得到：

\[\nabla_\theta\mathbb{E}_\tau[R(\tau)]=\mathbb{E}_\tau\left[R(\tau)\nabla_\theta\sum_{t=0}^{T-1}\log\pi(a_t\mid s_t,\theta)\right] \]

結論：如果想最大化期望下的 R(τ)，可以把 R(τ) 放 \(\nabla\) 外面，去求 Σ \(\nabla\) log π(a|s) ，即 log [action 機率] 的梯度。

4 REINFORCE 演算法

使用策略 π(a|s;θ)，生成一個 trajectory：\((s_0, a_0, r_1, ..., s_{T-1}, a_{T-1}, r_T)\) ；
對每個時間步 t，計算回報：\(R_t = \sum_{k=t+1}^{T} γ^{k-t-1} r_k\)
更新策略引數：\(θ = θ + α γ^t R_t ∇_θ log π(a_t|s_t;θ)\)

（演算法是 GPT 生成的，看起來好像沒問題）

Deterministic Policy Gradient Algorithms
2019-01-08
Go
強化學習(十三) 策略梯度(Policy Gradient)
2018-12-18
強化學習梯度
Diffuision Policy + RL -------個人部落格_ZSY_20241101
2024-11-01
UI
RL 基礎 | 如何使用 OpenAI Gym 介面，搭建自定義 RL 環境（詳細版）
2024-11-11
OpenAI
深度強化學習第十二章——Deep Deterministic Policy Gradient（DDPG）
2020-11-08
強化學習
Java基礎-物件導向基礎
2018-05-12
Java物件
RL 基礎 | 如何復現 PPO，以及一些踩坑經歷
2024-11-21
python物件導向[基礎]
2019-04-13
Python物件
Java基礎 --- 物件導向
2024-03-17
Java物件
數論基礎——求導
2024-09-09
求導
JAVA物件導向基礎
2021-07-16
Java物件
《神經網路的梯度推導與程式碼驗證》之數學基礎篇：矩陣微分與求導
2020-09-01
神經網路梯度矩陣求導
Python推導式（列表推導式、元組推導式、字典推導式和集合推導式)
2020-09-24
Python
java基礎二：物件導向
2019-02-23
Java物件
面向Python，物件導向（基礎）
2018-12-07
Python物件
12 物件導向基礎-1
2018-07-31
物件
PHP 物件導向基礎概念
2020-01-14
PHP物件
Golang 基礎之物件導向
2022-06-06
Golang物件
Python基礎之物件導向
2023-01-22
Python物件
JAVA物件導向基礎--物件導向介紹
2024-03-11
Java物件
前端基礎技術_瀏覽器同源政策（same-origin policy）及其規避方法
2020-09-25
前端瀏覽器
[鞏固基礎]總結Python基礎知識的14張思維導圖
2018-06-06
Python
面向Python，物件導向（基礎2）
2018-12-08
Python物件
JAVA物件導向基礎--異常
2024-03-11
Java物件
「MoreThanJava」Day 4：物件導向基礎
2020-08-04
Java物件
PHP基礎之物件導向篇
2020-09-19
PHP物件
【Java基礎】物件導向開發
2019-07-11
Java物件
面向Python，物件導向（基礎3）
2019-02-05
Python物件
《Python 基礎篇》六：物件導向
2024-09-29
Python物件
php基礎語法_物件導向
2024-06-13
PHP物件
（Java筆記）物件導向基礎
2020-12-14
Java筆記物件
12. 掌握Dart最基礎的導包操作
2019-03-19
Dart
java基礎韓順平老師的物件導向（基礎）自己記的部分筆記
2024-03-07
Java物件筆記
RL Introduction
2024-06-06
22、Python 字典推導與集合推導
2020-12-28
Python
Filter-Policy過濾策略&Route-policy
2024-04-07
Filter
老王的JAVA基礎課：第5課物件導向
2020-06-06
Java物件
推薦系統基礎知識（二）
2020-12-06