強化學習理論-第4課-值迭代與策略迭代

penuel發表於2024-11-13

原文網址 : https://www.cnblogs.com/penuel/p/18543501

1. value iteration algorithm:

值迭代上一節已經介紹過：

1.1 policy update:

1.2 Value update：

此時，\(\pi_{k+1}\)和\(v_k\)都是已知的

1.3 procedure summary：

1.4 example:

2. policy iteration algorithm:

Q1:

Q2:

Q3:

2.1 Policy evaluation:

2.2 Policy improvement:

3. truncated policy iteration algorithm

3.1 compare value iteration and policy iteration:

計算一步是value interation，計算無窮多步，就是policy iteration。中間截斷一步，就叫做truncated policy iteration

3.2 pseudocode：

4. summary:

相關文章

強化學習10——迭代學習
2020-10-26
強化學習
強化學習理論-第1課-基礎概念
2024-11-05
強化學習
強化學習入門之智慧走迷宮-策略迭代演算法
2021-06-07
強化學習演算法
強化學習--策略迭代如何解決01揹包問題？內附程式碼
2024-11-20
強化學習
強化學習入門之智慧走迷宮-價值迭代演算法
2021-06-09
強化學習演算法
12. 2020年秋季UC Berkeley CS285《深度強化學習》第4課：強化學習導論_2/6【中英字幕】
2020-11-25
強化學習
Iterator與Iterable(迭代器與可迭代)
2024-07-28
Python學習迭代器（Iterator）
2024-05-18
Python
Python可迭代的物件與迭代器
2021-12-14
Python物件
數值分析GaussSeidel迭代
2020-11-01
IDE
數值分析Jacobian迭代
2020-11-01
【Numpy學習08】陣列迭代
2020-10-23
陣列
機器學習之迭代方法
2020-06-12
機器學習
Python進階：迭代器與迭代器切片
2018-12-30
Python
強化學習之蒙特卡洛學習,時序差分學習理論與實戰
2020-12-10
強化學習
強化學習詳解：理論基礎與核心演算法解析
2024-09-27
強化學習演算法
前端面試複習2：迭代器,生成器與非同步迭代器
2019-03-20
前端面試非同步
C++中cbegin迭代器學習
2024-05-08
C++
Python學習之迭代器協議
2020-04-04
Python協議
強化學習-學習筆記3 | 策略學習
2022-07-05
強化學習筆記
迭代閾值分割演算法
2020-12-24
演算法
Python學習筆記|Python之索引迭代
2018-12-21
Python筆記索引
課時48：魔法方法：迭代器
2018-08-26
JavaScript的迭代函式與迭代函式的實現
2019-01-07
JavaScript函式
你知道JavaScript中的可迭代物件與迭代器嗎
2021-09-11
JavaScript物件
協程與迭代器
2024-03-24
強化學習(十三) 策略梯度(Policy Gradient)
2018-12-18
強化學習梯度
迭代器和異常處理
2021-11-19
強化學習-學習筆記2 | 價值學習
2022-07-04
強化學習筆記
測開之資料型別· 第4篇《迭代器、生成器》
2020-12-19
資料型別
機器學習第4篇：資料預處理（sklearn 插補缺失值）
2020-12-29
機器學習
迭代器與生成器
2020-10-31
[OI] 指標與迭代器
2024-06-07
指標
Python學習筆記 - 迭代器和生成器
2019-01-03
Python筆記
【numpy學習筆記】陣列的切片，索引，迭代
2018-07-10
筆記陣列索引
軟體設計模式學習（二十）迭代器模式
2020-05-25
設計模式
機器學習中的世代、迭代和批大小
2020-11-14
機器學習
強化學習五大方面-獎勵與策略結構
2021-01-22
強化學習