強化學習系列(1):簡介

rosefunR發表於2020-11-29

1. 強化學習

強化學習,reinforcement learning,RL,強調如何基於環境而行動,以取得最大化的預期利益。

在機器學習問題中,環境通常被規範為馬爾科夫決策過程,所以,強化學習演算法在這種情況下使用動態規劃技巧。

強化學習和標準的監督式學習之間的區別在於,它並不需要出現正確的輸入/輸出對,也不需要精確校正次優化的行為。強化學習更加專注於線上規劃,需要在探索(在未知的領域)和遵從(現有知識)之間找到p;h

2. 強化學習模型

基本的強化學習模型包括:

1.環境狀態的集合S;
2.動作的集合A;
3.在狀態之間轉換的規則(轉移概率矩陣)P;
4.規定轉換後“即時獎勵”的規則(獎勵函式)R;
5.描述主體能夠觀察到什麼的規則。

規則通常是隨機的。

適用場合

強化學習能夠使用樣本來優化行為,使用函式近似來描述複雜的環境。強化學習可以適用於以下的複雜環境中:

(1)模型的環境已知,且解析解不存在;
(2)僅僅給出環境的模擬模型(模擬優化方法的問題);
(3)從環境中獲取資訊的唯一辦法是和它互動。

常見演算法

(1)蒙特卡洛學習;
(2)Temporal-Difference Learning
(3)SARSA;
(4)Q-Learning


參考:

  1. wiki強化學習;

相關文章