一、前述
強化學習是學習一個最優策略(policy),可以讓本體(agent)在特定環境(environment)中,根據當前的狀態(state),做出行動(action),從而獲得最大回報(G or return)。
通俗點說:學習系統沒有像很多其它形式的機器學習方法一樣被告知應該做出什麼行為,必須在嘗試了之後才能發現哪些行為會導致獎勵的最大化,當前的行為可能不僅僅會影響即時獎勵,還會影響下一步的獎勵以及後續的所有獎勵。
二、具體
1、相關定義
智慧體 (agent):我們要操控的實物。比如上述中的車。
狀態 (state):當前什麼樣的環境狀態。
行為 (action):下一步的操作。
獎勵:對不同的操作結果,都有衡量指標,一個獎勵值。
策略:一系列相關行為的組合達到最大的一個獎勵值,就是一個策略。
強化學習的過程:先行動,再觀察 再行動 再觀測…
每一個動作(action)都能影響代理將來的狀態(state),通過一個標量的獎勵(reward)訊號來衡量成功,目標:選擇一系列行動來最大化未來的獎勵。
小車舉例:
馬爾科夫決策要求:
1.能夠檢測到理想的狀態
2.可以多次嘗試
3.系統的下個狀態只與當前狀態資訊有關,而與更早之前的狀態無關
在決策過程中還和當前採取的動作有關
馬爾科夫決策過程由5個元素構成:
過程:
1.智慧體初始狀態為S0
2.選擇一個動作a0
3.按概率轉移矩陣Psa轉移到了下一個狀態S1
然後。。。
狀態價值函式:
Bellman方程: 當前狀態的價值和下一步的價值及當前的獎勵(Reward)有關價值函式分解為當前的獎勵和下一步的價值兩部分,類似遞迴。
在某個狀態(state)下最優價值函式的值,就是智慧體(agent)在該狀態下,所能獲得的累積期望獎勵值(cumulative expective rewards)的最大值.