強化學習系列(1):簡介
1. 強化學習
強化學習,reinforcement learning,RL,強調如何基於環境而行動,以取得最大化的預期利益。
在機器學習問題中,環境通常被規範為馬爾科夫決策過程,所以,強化學習演算法在這種情況下使用動態規劃技巧。
強化學習和標準的監督式學習之間的區別在於,它並不需要出現正確的輸入/輸出對,也不需要精確校正次優化的行為。強化學習更加專注於線上規劃,需要在探索(在未知的領域)和遵從(現有知識)之間找到p;h
2. 強化學習模型
基本的強化學習模型包括:
1.環境狀態的集合S;
2.動作的集合A;
3.在狀態之間轉換的規則(轉移概率矩陣)P;
4.規定轉換後“即時獎勵”的規則(獎勵函式)R;
5.描述主體能夠觀察到什麼的規則。
規則通常是隨機的。
適用場合
強化學習能夠使用樣本來優化行為,使用函式近似來描述複雜的環境。強化學習可以適用於以下的複雜環境中:
(1)模型的環境已知,且解析解不存在;
(2)僅僅給出環境的模擬模型(模擬優化方法的問題);
(3)從環境中獲取資訊的唯一辦法是和它互動。
常見演算法
(1)蒙特卡洛學習;
(2)Temporal-Difference Learning
(3)SARSA;
(4)Q-Learning
參考:
相關文章
- 強化學習-簡介強化學習
- 麻省理工學院Lex Fridman:強化學習簡介強化學習
- Unity學習系列一簡介Unity
- Go語言學習(1) - 簡介Go
- TensorFlow系列專題(三):深度學習簡介深度學習
- SpringCloud學習筆記:SpringCloud簡介(1)SpringGCCloud筆記
- Burp Suite學習記錄1 - 簡介UI
- 強化學習-學習筆記1 | 基礎概念強化學習筆記
- 遊戲的強化學習簡史遊戲強化學習
- .Net 下 Solr 入門學習系列(一)Solr簡介Solr
- 比特幣學習筆記——————1、比特幣簡介比特幣筆記
- Python 入門系列 —— 1. 簡介Python
- 強化學習強化學習
- 強化學習-學習筆記13 | 多智慧體強化學習強化學習筆記智慧體
- 【強化學習篇】--強化學習案例詳解一強化學習
- 【強化學習】強化學習術語表(A-Z)強化學習
- 深度強化學習day01初探強化學習強化學習
- 廖雪峰Git學習筆記1-Git簡介Git筆記
- 強化學習10——迭代學習強化學習
- 隨機學習簡介隨機
- Java學習:JDBC簡介JavaJDBC
- 機器學習簡介機器學習
- matplotlib 強化學習強化學習
- 【強化學習篇】--強化學習從初識到應用強化學習
- 【機器學習】機器學習簡介機器學習
- 強化學習理論-第1課-基礎概念強化學習
- Tensorflow 深度學習簡介(自用)深度學習
- gcc簡介(學習筆記)GC筆記
- 元學習簡單介紹
- 3、Ktor學習-ApplicationCall簡介;APP
- 強化學習-學習筆記3 | 策略學習強化學習筆記
- mysql學習1:第一章:Mysql簡介與主流MySql
- 再探強化學習強化學習
- 強化學習分類強化學習
- 強化學習筆記強化學習筆記
- 強化學習之CartPole強化學習
- 【強化學習】強化學習的基本概念與程式碼實現強化學習
- Java入門到實踐系列(1)——Java簡介Java