AI學習筆記——強化學習之動態規劃(Dynamic Programming)解決MDP(1)
我們介紹過MDP(Markov Decision Processes馬可夫決策過程)以及什麼是最優MDP,甚至從強化學習的角度介紹了DQN,Q-learning, Sarsa 等求解最優MDP方法,但是要深入理解強化學習,必須瞭解背後支援的理論基礎。動態規劃(Dynamic programming)就是這些演算法為什麼能夠求解最優MDP的理論基礎。
動態規劃的本質是將複雜大問題分解成,相互重疊的簡單子問題,求到子問題的的最優解,然後將這些最優解組合起來就是大問題的最優解。
舉個簡單的例子,女朋友想在衣帽間中找到最搭的穿戴(衣服,帽子,鞋子,首飾。。。)。這是一個複雜的問題,但是我們可以把這個問題分解成互相重疊的小問題,比如,找到最佳搭配的鞋子和褲子。最佳搭配的褲子和衣服,最佳搭配的衣服和首飾等等。。。將這些搭配打完分之後,你自然就會找到最佳搭配的(得分最高的)衣服,褲子,帽子,鞋子和首飾了。
能用動態規劃解決的問題必須滿足兩個條件,第一是可以拆解成子問題,第二這些子問題必須能相互重疊,MDP就滿足這兩個條件。
在用動態規劃解決MDP問題的時候需要用到之前提到的Bellman公式,已經用Bellman公式1.預測v函式(狀態值函式),2.通過價值迭代(Value iteration)求最優MDP 3. 通過策略迭代(Policy Iternation)來求得最優MDP。這些內容將放在下一篇文章中介紹。
相關文章
AI學習筆記——求解最優MDP
AI學習筆記——MDP(Markov Decision Processes馬可夫決策過程)簡介
AI學習筆記——Q Learning
AI學習筆記——Sarsa演算法
AI學習筆記——卷積神經網路(CNN)
文章首發steemit.com 為了方便牆內閱讀,搬運至此,歡迎留言或者訪問我的Steemit主頁
相關文章
- 動態規劃學習筆記動態規劃筆記
- 動態規劃(Dynamic programming)動態規劃
- 強化學習(三)用動態規劃(DP)求解強化學習動態規劃
- 動手學強化學習(四):動態規劃演算法強化學習動態規劃演算法
- 強化學習-學習筆記11 | 解決高估問題強化學習筆記
- 強化學習-學習筆記1 | 基礎概念強化學習筆記
- 基於動態規劃的強化學習演算法動態規劃強化學習演算法
- 強化學習-學習筆記13 | 多智慧體強化學習強化學習筆記智慧體
- 強化學習-學習筆記3 | 策略學習強化學習筆記
- 強化學習筆記強化學習筆記
- 強化學習-學習筆記5 | AlphaGo強化學習筆記Go
- 動態規劃演算法(DP)學習<1>動態規劃演算法
- 強化學習-學習筆記2 | 價值學習強化學習筆記
- 強化學習(二)馬爾科夫決策過程(MDP)強化學習馬爾科夫
- 分數規劃學習筆記筆記
- 強化學習-學習筆記15 | 連續控制強化學習筆記
- 強化學習-學習筆記4 | Actor-Critic強化學習筆記
- 強化學習-學習筆記10 | 經驗回放強化學習筆記
- 第5輪學習筆記規劃筆記
- java反射之動態代理學習筆記Java反射筆記
- 強化學習筆記之【SAC演算法】強化學習筆記演算法
- oracle 學習筆記---效能優化學習(1)Oracle筆記優化
- 強化學習-學習筆記8 | Q-learning強化學習筆記
- AI學習筆記AI筆記
- 線性規劃對偶學習筆記筆記
- "Principles of Reactive Programming" 之 <Persistent Actor State>學習筆記React筆記
- 強化學習-學習筆記9 | Multi-Step-TD-Target強化學習筆記
- Vue(1)之—— Vuex學習筆記Vue筆記
- 【強化學習篇】--強化學習案例詳解一強化學習
- 【學習筆記】之:Java命名規範筆記Java
- 學習筆記1筆記
- 學習筆記-1筆記
- 【強化學習】強化學習/增強學習/再勵學習介紹強化學習
- V-rep學習筆記:機器人路徑規劃1筆記機器人
- 強化學習-學習筆記12 | Dueling Network強化學習筆記
- 動態規劃(dynamic programming)與貪心演算法(greedy algorithm)動態規劃演算法Go
- 學習規劃
- Mybatis學習筆記(6)-動態SQLMyBatis筆記SQL