強化學習入門 -KDnuggets

發表於2021-04-28

如今，強化學習（RL：reinforcement-learning）之所以引起如此廣泛的興趣，其原因之一就是其跨學科性。該領域的核心概念實際上遵循基本博弈論，進化論和神經科學原理。

與所有其他形式的機器學習相比，實際上，在嘗試複製模擬人類和動物在整個時間段內的學習方式時，可以認為RL是最接近的近似值。

強化學習模擬人類最常用於學習的主要方式是通過使用感測器並與環境互動（因此，在有監督的學習中，無需像外部指導那樣，而是通過反覆試驗的過程）。

我們每天都會嘗試完成新任務，並且根據嘗試的結果，我們會影響周圍的環境，通過評估我們的嘗試，我們可以從經歷中學到經驗，以確定哪些行為（最容易重複）可以給我們帶來更大的好處，而哪些行為應該最好地避免。代表了大多數基於強化學習的演算法的主要工作流程。

強化學習系統的兩個主要挑戰是：

探索與開發的兩難境地：如果探索者發現一個可以給他適度高額報酬的行為，可能會不嘗試任何其他可用的行為，因為害怕這樣做可能會不太成功。同時，如果機器學習甚至不嘗試其他操作，則可能永遠不會發現有可能獲得更好的回報。
延遲獎勵的處理：不要立即獎勵機器學習，而應提出不同的解決方案，對其進行測試，最後根據收到的獎勵對它們進行評估。機器學習不應該僅僅根據他們的立即回報來評估他們的行動。實際上，選擇某種型別的行動可能會立即產生更大的回報。

核心元件

根據理查德·薩頓（Richard S. Sutton）等人的說法。強化學習演算法由4個主要關鍵部分組成：策略，獎勵，價值函式，環境模型。

策略：定義機器學習行為（將不同的狀態對映到操作）。由於每個特定操作都與要選擇的概率相關聯，因此策略最有可能是隨機的。
獎勵：一種訊號，用於提醒機器學習如何最好地修改其策略以實現已定義的目標（在短時間內）。每次執行操作時，都會從環境中收到對機器學習的獎勵。
值函式：用於從長遠角度瞭解哪些動作可以帶來更大的回報。它的工作原理是為不同的狀態分配值，以評估機器學習從任何特定狀態開始應該期望的報酬。
環境模型：模擬人類所處環境的動態，以及環境應如何響應人類所採取的不同措施。取決於應用程式，某些RL演算法不一定需要環境模型（無模型方法），因為可以使用試錯法進行處理。雖然基於模型的方法可以使RL演算法處理需要計劃的更復雜的任務。

這裡是強化學習入門，的入門 | 絕對新手友好
2018-04-05
強化學習
技術 | 強化學習入門以及程式碼實現
2019-02-28
強化學習
[MySQL光速入門]008 SQL強化練習
2019-04-18
MySql
強化學習入門知識與經典專案分析1.3
2022-02-28
強化學習
[MySQL光速入門]009 SQL強化練習答案
2019-03-27
MySql
強化學習
2020-12-05
強化學習
強化學習-學習筆記13 | 多智慧體強化學習
2022-07-10
強化學習筆記智慧體
[譯] 強化學習入門篇：Simmer 模擬平臺高階使用技巧
2019-07-20
強化學習
強化學習入門之智慧走迷宮-策略迭代演算法
2021-06-07
強化學習演算法
【強化學習篇】--強化學習案例詳解一
2018-06-30
強化學習
【強化學習】強化學習術語表（A-Z）
2020-10-25
強化學習
深度強化學習day01初探強化學習
2019-06-27
強化學習
強化學習入門之智慧走迷宮-價值迭代演算法
2021-06-09
強化學習演算法
強化學習10——迭代學習
2020-10-26
強化學習
matplotlib 強化學習
2020-06-21
強化學習
【強化學習篇】--強化學習從初識到應用
2018-06-30
強化學習
ROS入門學習
2018-11-10
ROS
nuxt 入門學習
2019-01-07
UX
Nginx入門學習
2020-06-17
Nginx
mybatis入門學習
2020-07-05
MyBatis
Linux入門學習
2019-05-28
Linux
GORM學習入門
2022-06-23
GoORM
Vue入門學習
2021-04-27
Vue
MyBatisPlus入門學習
2021-05-03
MyBatis
spring入門學習
2020-12-12
Spring
什麼是機器學習MLOps？ - kdnuggets
2020-12-20
機器學習
強化學習-學習筆記3 | 策略學習
2022-07-05
強化學習筆記
再探強化學習
2024-03-14
強化學習
強化學習分類
2024-08-12
強化學習
強化學習筆記
2023-04-07
強化學習筆記
強化學習之CartPole
2021-06-14
強化學習
強化學習-簡介
2021-01-20
強化學習
python入門學習這篇夠了，強烈建議收藏！
2019-01-24
Python
【強化學習】強化學習的基本概念與程式碼實現
2018-03-21
強化學習
強化學習-學習筆記5 | AlphaGo
2022-07-06
強化學習筆記Go
深度學習及深度強化學習研修
2021-01-04
深度學習強化學習
PHP 反序列化漏洞入門學習筆記
2020-07-14
PHP筆記
Egg入門學習(一)
2019-01-03

強化學習入門 -KDnuggets

相關文章