AI學習筆記——強化學習之動態規劃(Dynamic Programming)解決MDP(1)

weixin_34075551發表於2018-09-28

原文網址 : https://blog.csdn.net/weixin_34075551/article/details/87420021

我們介紹過MDP(Markov Decision Processes馬可夫決策過程)以及什麼是最優MDP，甚至從強化學習的角度介紹了DQN，Q-learning, Sarsa 等求解最優MDP方法，但是要深入理解強化學習，必須瞭解背後支援的理論基礎。動態規劃(Dynamic programming)就是這些演算法為什麼能夠求解最優MDP的理論基礎。

動態規劃的本質是將複雜大問題分解成，相互重疊的簡單子問題，求到子問題的的最優解，然後將這些最優解組合起來就是大問題的最優解。

舉個簡單的例子，女朋友想在衣帽間中找到最搭的穿戴(衣服，帽子，鞋子，首飾。。。)。這是一個複雜的問題，但是我們可以把這個問題分解成互相重疊的小問題，比如，找到最佳搭配的鞋子和褲子。最佳搭配的褲子和衣服，最佳搭配的衣服和首飾等等。。。將這些搭配打完分之後，你自然就會找到最佳搭配的(得分最高的)衣服，褲子，帽子，鞋子和首飾了。

能用動態規劃解決的問題必須滿足兩個條件，第一是可以拆解成子問題，第二這些子問題必須能相互重疊，MDP就滿足這兩個條件。

在用動態規劃解決MDP問題的時候需要用到之前提到的Bellman公式，已經用Bellman公式1.預測v函式(狀態值函式)，2.通過價值迭代(Value iteration)求最優MDP 3. 通過策略迭代(Policy Iternation)來求得最優MDP。這些內容將放在下一篇文章中介紹。

文章首發steemit.com 為了方便牆內閱讀，搬運至此，歡迎留言或者訪問我的Steemit主頁

動態規劃學習筆記
2024-08-03
動態規劃筆記
動態規劃（Dynamic programming）
2024-07-25
動態規劃
強化學習（三）用動態規劃（DP）求解
2018-08-12
強化學習動態規劃
動手學強化學習（四）：動態規劃演算法
2024-03-03
強化學習動態規劃演算法
強化學習-學習筆記11 | 解決高估問題
2022-07-08
強化學習筆記
強化學習-學習筆記1 | 基礎概念
2022-07-04
強化學習筆記
基於動態規劃的強化學習演算法
2024-03-08
動態規劃強化學習演算法
強化學習-學習筆記3 | 策略學習
2022-07-05
強化學習筆記
強化學習-學習筆記13 | 多智慧體強化學習
2022-07-10
強化學習筆記智慧體
動態規劃演算法(DP)學習＜1＞
2020-12-07
動態規劃演算法
強化學習筆記
2023-04-07
強化學習筆記
強化學習-學習筆記5 | AlphaGo
2022-07-06
強化學習筆記Go
分數規劃學習筆記
2024-06-07
筆記
強化學習-學習筆記2 | 價值學習
2022-07-04
強化學習筆記
強化學習（二）馬爾科夫決策過程(MDP)
2018-08-05
強化學習馬爾科夫
強化學習-學習筆記12 | Dueling Network
2022-07-09
強化學習筆記
java反射之動態代理學習筆記
2021-09-09
Java反射筆記
強化學習-學習筆記15 | 連續控制
2022-07-14
強化學習筆記
強化學習-學習筆記8 | Q-learning
2022-07-07
強化學習筆記
強化學習-學習筆記10 | 經驗回放
2022-07-08
強化學習筆記
強化學習-學習筆記4 | Actor-Critic
2022-07-05
強化學習筆記
強化學習筆記之【SAC演算法】
2024-10-11
強化學習筆記演算法
動態規劃（dynamic programming）與貪心演算法（greedy algorithm）
2018-06-07
動態規劃演算法Go
線性規劃對偶學習筆記
2024-06-10
筆記
AI學習筆記
2021-08-26
AI筆記
Vue（1）之—— Vuex學習筆記
2019-03-20
Vue筆記
【學習筆記】之：Java命名規範
2020-11-16
筆記Java
強化學習-學習筆記9 | Multi-Step-TD-Target
2022-07-07
強化學習筆記
強化學習-學習筆記14 | 策略梯度中的 Baseline
2022-07-12
強化學習筆記梯度
Day1-學習筆記-js之正規表示式
2020-11-08
筆記JS
AI學習筆記之——如何理解機器學習(Machine Learning)
2018-07-23
AI筆記機器學習Mac
學習筆記1
2020-10-18
筆記
學習筆記-1
2020-12-31
筆記
「分數規劃」學習筆記及做題記錄
2024-10-05
筆記
【強化學習篇】--強化學習案例詳解一
2018-06-30
強化學習
學習規劃
2018-09-09
HexMap學習筆記(四)——不規則化
2019-03-20
筆記
MySQL優化學習筆記之explain
2018-10-25
MySql優化筆記AI

AI學習筆記——強化學習之動態規劃(Dynamic Programming)解決MDP(1)

相關文章