強化學習入門 -KDnuggets

發表於2021-04-28

如今,強化學習(RL:reinforcement-learning)之所以引起如此廣泛的興趣,其原因之一就是其跨學科性。該領域的核心概念實際上遵循基本 博弈論, 進化論 和神經科學原理。

與所有其他形式的機器學習相比,實際上,在嘗試複製模擬人類和動物在整個時間段內的學習方式時,可以認為RL是最接近的近似值。

強化學習模擬人類最常用於學習的主要方式是通過使用感測器並與環境互動(因此,在有監督的學習中,無需像外部指導那樣,而是通過反覆試驗的過程)。

我們每天都會嘗試完成新任務,並且根據嘗試的結果,我們會影響周圍的環境,通過評估我們的嘗試,我們可以從經歷中學到經驗,以確定哪些行為(最容易重複)可以給我們帶來更大的好處,而哪些行為應該最好地避免。代表了大多數基於強化學習的演算法的主要工作流程。

強化學習系統的兩個主要挑戰是:

  • 探索與開發的兩難境地:如果探索者發現一個可以給他適度高額報酬的行為,可能會不嘗試任何其他可用的行為,因為害怕這樣做可能會不太成功。同時,如果機器學習甚至不嘗試其他操作,則可能永遠不會發現有可能獲得更好的回報。
  • 延遲獎勵的處理:不要立即獎勵機器學習,而應提出不同的解決方案,對其進行測試,最後根據收到的獎勵對它們進行評估。機器學習不應該僅僅根據他們的立即回報來評估他們的行動。實際上,選擇某種型別的行動可能會立即產生更大的回報。

 

核心元件

 根據理查德·薩頓(Richard S. Sutton)等人的說法。強化學習演算法由4個主要關鍵部分組成:策略,獎勵,價值函式,環境模型。

  • 策略: 定義機器學習行為(將不同的狀態對映到操作)。 由於每個特定操作都與要選擇的概率相關聯,因此策略最有可能是 隨機的。
  • 獎勵: 一種訊號,用於提醒機器學習如何最好地修改其策略以實現已定義的目標(在短時間內)。每次執行操作時,都會從環境中收到對機器學習的獎勵。
  • 值函式: 用於從長遠角度瞭解哪些動作可以帶來更大的回報。它的工作原理是為不同的狀態分配值,以評估機器學習從任何特定狀態開始應該期望的報酬。
  • 環境模型: 模擬人類所處環境的動態,以及環境應如何響應人類所採取的不同措施。取決於應用程式,某些RL演算法不一定需要環境模型(無模型方法),因為可以使用試錯法進行處理。雖然基於模型的方法可以使RL演算法處理需要計劃的更復雜的任務。

 

相關文章