為什麼說強化學習是一種人工智慧的通用框架?

shenmanli發表於2017-08-09
深度強化學習(Deep Reinforcement Learning) ,強化學習是一種人工智慧的通用框架:
1、強化學習是針對一個擁有行動能力的agent 而言的
2、每個行動影響了agent 的未來狀態
3、使用標量值回報訊號來度量成功
一言以蔽之:選擇行動來最大化未來回報。我們最終的目標是尋求得到可以解決所有人類層級的任務的單一的agent,這也是智慧agent 的本質。


agent和環境


強化學習結構:
在每個時間步t、agent:
–接受狀態St
–接受標量回報rt
–執行行動at
強化學習的環境:
–接受行動at
–產生狀態St
–產生標量回報rt



強化學習的場景和例子


1、控制物理系統:行走、飛行、駕駛、游泳、……
2、與使用者進行互動:客戶維護retain customers、個性化頻道personalisechannel、使用者體驗優化optimiseuser experience、……
3、解決物流問題:規劃scheduling、頻寬分配bandwidth allocation、電梯控制、認知無線電cognitive radio、電力優化power optimisation、……
4、玩遊戲:棋類、撲克、圍棋、Atari 遊戲、……
5、學習序列化演算法:注意力attention、記憶memory、條件計算conditional computation、啟用activation


策略policy 和估值value 函式


策略π 是給定狀態下選擇行動的行為函式:
a=π(s)
估值函式Qπ(s, a)是從狀態s開始在策略π 下采取行動a 的期望全回報:

估值就是評估在狀態s 時採取行動a 的好壞。


強化學習的幾個方向


基於策略的強化
–直接搜尋最優策略π*
–目標就是得到最大未來回報的策略
基於估值的強化
–估計最優值函式Q*(s, a)
–在任何策略下可獲得的最大值
基於模型的強化
–構建一個環境的遷移模型
–使用該模型進行規劃(通過查詢規則)

相關文章