為什麼說強化學習是一種人工智慧的通用框架?
深度強化學習(Deep Reinforcement Learning) ,強化學習是一種人工智慧的通用框架:
1、強化學習是針對一個擁有行動能力的agent 而言的
2、每個行動影響了agent 的未來狀態
3、使用標量值回報訊號來度量成功
一言以蔽之:選擇行動來最大化未來回報。我們最終的目標是尋求得到可以解決所有人類層級的任務的單一的agent,這也是智慧agent 的本質。
agent和環境
強化學習結構:
在每個時間步t、agent:
–接受狀態St
–接受標量回報rt
–執行行動at
強化學習的環境:
–接受行動at
–產生狀態St
–產生標量回報rt
強化學習的場景和例子
1、控制物理系統:行走、飛行、駕駛、游泳、……
2、與使用者進行互動:客戶維護retain customers、個性化頻道personalisechannel、使用者體驗優化optimiseuser experience、……
3、解決物流問題:規劃scheduling、頻寬分配bandwidth allocation、電梯控制、認知無線電cognitive radio、電力優化power optimisation、……
4、玩遊戲:棋類、撲克、圍棋、Atari 遊戲、……
5、學習序列化演算法:注意力attention、記憶memory、條件計算conditional computation、啟用activation
策略policy 和估值value 函式
策略π 是給定狀態下選擇行動的行為函式:
a=π(s)
估值函式Qπ(s, a)是從狀態s開始在策略π 下采取行動a 的期望全回報:
估值就是評估在狀態s 時採取行動a 的好壞。
強化學習的幾個方向
基於策略的強化
–直接搜尋最優策略π*
–目標就是得到最大未來回報的策略
基於估值的強化
–估計最優值函式Q*(s, a)
–在任何策略下可獲得的最大值
基於模型的強化
–構建一個環境的遷移模型
–使用該模型進行規劃(通過查詢規則)
1、強化學習是針對一個擁有行動能力的agent 而言的
2、每個行動影響了agent 的未來狀態
3、使用標量值回報訊號來度量成功
一言以蔽之:選擇行動來最大化未來回報。我們最終的目標是尋求得到可以解決所有人類層級的任務的單一的agent,這也是智慧agent 的本質。
agent和環境
強化學習結構:
在每個時間步t、agent:
–接受狀態St
–接受標量回報rt
–執行行動at
強化學習的環境:
–接受行動at
–產生狀態St
–產生標量回報rt
強化學習的場景和例子
1、控制物理系統:行走、飛行、駕駛、游泳、……
2、與使用者進行互動:客戶維護retain customers、個性化頻道personalisechannel、使用者體驗優化optimiseuser experience、……
3、解決物流問題:規劃scheduling、頻寬分配bandwidth allocation、電梯控制、認知無線電cognitive radio、電力優化power optimisation、……
4、玩遊戲:棋類、撲克、圍棋、Atari 遊戲、……
5、學習序列化演算法:注意力attention、記憶memory、條件計算conditional computation、啟用activation
策略policy 和估值value 函式
策略π 是給定狀態下選擇行動的行為函式:
a=π(s)
估值函式Qπ(s, a)是從狀態s開始在策略π 下采取行動a 的期望全回報:
估值就是評估在狀態s 時採取行動a 的好壞。
強化學習的幾個方向
基於策略的強化
–直接搜尋最優策略π*
–目標就是得到最大未來回報的策略
基於估值的強化
–估計最優值函式Q*(s, a)
–在任何策略下可獲得的最大值
基於模型的強化
–構建一個環境的遷移模型
–使用該模型進行規劃(通過查詢規則)
相關文章
- 什麼是人工智慧領域的強化學習人工智慧強化學習
- 什麼是框架?為什麼說 Angular 是框架?框架Angular
- 為什麼說要把人工智慧習以為常化人工智慧
- 為什麼說學人工智慧一定要學Python?人工智慧Python
- 學Flask框架有什麼用?為什麼學習Flask?Flask框架
- 什麼是深度強化學習? 又是如何應用在遊戲中的?強化學習遊戲
- 通用爬蟲技術框架是什麼?爬蟲框架
- 為什麼需要強人工智慧人工智慧
- 對laravel框架你瞭解多少,為什麼說是優雅的框架Laravel框架
- 為什麼說現在是學習Ruby和Rails的最佳時機!AI
- 什麼是人工智慧領域的深度學習?人工智慧深度學習
- 為什麼說 TCP 是安全的TCP
- 人工智慧+Python深度學習是什麼?人工智慧Python深度學習
- 人工智慧 (12) 強化學習人工智慧強化學習
- 為什麼說 ICMP 協議是網路最強輔助協議
- 為什麼說 HTTPS 是安全的?HTTP
- Python優勢是什麼?為什麼要學習?Python
- Docker 學習 一:Docker 是什麼Docker
- Docker 學習 一,Docker 是什麼Docker
- 強人工智慧後的世界會是什麼景象人工智慧
- 深度學習中資料集很小是一種什麼樣的體驗深度學習
- 強化學習(十七) 基於模型的強化學習與Dyna演算法框架強化學習模型演算法框架
- 為什麼說for...of是JS中的一顆寶石JS
- 【強化學習篇】--強化學習案例詳解一強化學習
- 為什麼說遊戲設計是隱形的建築學?遊戲設計
- 面試官問:你對laravel 框架了解多少,為什麼說是優雅的框架?面試Laravel框架
- 什麼是shell指令碼?Linux為什麼學習shell?指令碼Linux
- 什麼是java?為什麼大家都學習java技術?Java
- 為什麼 Web 開發人員需要學習一個 JavaScript 框架?WebJavaScript框架
- 【譯】為什麼 React16 對開發人員來說是一種福音React
- 為什麼說 Serverless 是雲的未來?Server
- 為什麼說KVM是手遊理想的虛擬化平臺薦
- 強化學習與其他機器學習方法有什麼不同?強化學習機器學習
- 【學習】介面是什麼?實現原理的是什麼?
- AI落地遭“卡脖子”困境:為什麼說聯邦學習是解決良方?AI聯邦學習
- 一文讀懂人工智慧、機器學習、深度學習、強化學習的關係(必看)人工智慧機器學習深度學習強化學習
- 《面試補習》- 你來說說什麼是限流?面試
- 什麼是Spring Boot?為什麼要學習Spring Boot?Spring Boot