AI學習筆記——強化學習之動態規劃(Dynamic Programming)解決MDP(1)

weixin_34075551發表於2018-09-28

我們介紹過MDP(Markov Decision Processes馬可夫決策過程)以及什麼是最優MDP,甚至從強化學習的角度介紹了DQNQ-learning, Sarsa 等求解最優MDP方法,但是要深入理解強化學習,必須瞭解背後支援的理論基礎。動態規劃(Dynamic programming)就是這些演算法為什麼能夠求解最優MDP的理論基礎。

10816620-e7cdbe713763c385.png

動態規劃的本質是將複雜大問題分解成,相互重疊的簡單子問題,求到子問題的的最優解,然後將這些最優解組合起來就是大問題的最優解。

舉個簡單的例子,女朋友想在衣帽間中找到最搭的穿戴(衣服,帽子,鞋子,首飾。。。)。這是一個複雜的問題,但是我們可以把這個問題分解成互相重疊的小問題,比如,找到最佳搭配的鞋子和褲子。最佳搭配的褲子和衣服,最佳搭配的衣服和首飾等等。。。將這些搭配打完分之後,你自然就會找到最佳搭配的(得分最高的)衣服,褲子,帽子,鞋子和首飾了。

能用動態規劃解決的問題必須滿足兩個條件,第一是可以拆解成子問題,第二這些子問題必須能相互重疊,MDP就滿足這兩個條件。

在用動態規劃解決MDP問題的時候需要用到之前提到的Bellman公式,已經用Bellman公式1.預測v函式(狀態值函式),2.通過價值迭代(Value iteration)求最優MDP 3. 通過策略迭代(Policy Iternation)來求得最優MDP。這些內容將放在下一篇文章中介紹。


相關文章
AI學習筆記——求解最優MDP
AI學習筆記——MDP(Markov Decision Processes馬可夫決策過程)簡介
AI學習筆記——Q Learning
AI學習筆記——Sarsa演算法
AI學習筆記——卷積神經網路(CNN)


文章首發steemit.com 為了方便牆內閱讀,搬運至此,歡迎留言或者訪問我的Steemit主頁

相關文章