強化學習入門 -KDnuggets
如今,強化學習(RL:reinforcement-learning)之所以引起如此廣泛的興趣,其原因之一就是其跨學科性。該領域的核心概念實際上遵循基本 博弈論, 進化論 和神經科學原理。
與所有其他形式的機器學習相比,實際上,在嘗試複製模擬人類和動物在整個時間段內的學習方式時,可以認為RL是最接近的近似值。
強化學習模擬人類最常用於學習的主要方式是通過使用感測器並與環境互動(因此,在有監督的學習中,無需像外部指導那樣,而是通過反覆試驗的過程)。
我們每天都會嘗試完成新任務,並且根據嘗試的結果,我們會影響周圍的環境,通過評估我們的嘗試,我們可以從經歷中學到經驗,以確定哪些行為(最容易重複)可以給我們帶來更大的好處,而哪些行為應該最好地避免。代表了大多數基於強化學習的演算法的主要工作流程。
強化學習系統的兩個主要挑戰是:
- 探索與開發的兩難境地:如果探索者發現一個可以給他適度高額報酬的行為,可能會不嘗試任何其他可用的行為,因為害怕這樣做可能會不太成功。同時,如果機器學習甚至不嘗試其他操作,則可能永遠不會發現有可能獲得更好的回報。
- 延遲獎勵的處理:不要立即獎勵機器學習,而應提出不同的解決方案,對其進行測試,最後根據收到的獎勵對它們進行評估。機器學習不應該僅僅根據他們的立即回報來評估他們的行動。實際上,選擇某種型別的行動可能會立即產生更大的回報。
核心元件
根據理查德·薩頓(Richard S. Sutton)等人的說法。強化學習演算法由4個主要關鍵部分組成:策略,獎勵,價值函式,環境模型。
- 策略: 定義機器學習行為(將不同的狀態對映到操作)。 由於每個特定操作都與要選擇的概率相關聯,因此策略最有可能是 隨機的。
- 獎勵: 一種訊號,用於提醒機器學習如何最好地修改其策略以實現已定義的目標(在短時間內)。每次執行操作時,都會從環境中收到對機器學習的獎勵。
- 值函式: 用於從長遠角度瞭解哪些動作可以帶來更大的回報。它的工作原理是為不同的狀態分配值,以評估機器學習從任何特定狀態開始應該期望的報酬。
- 環境模型: 模擬人類所處環境的動態,以及環境應如何響應人類所採取的不同措施。取決於應用程式,某些RL演算法不一定需要環境模型(無模型方法),因為可以使用試錯法進行處理。雖然基於模型的方法可以使RL演算法處理需要計劃的更復雜的任務。
相關文章
- 這裡是強化學習入門,的入門 | 絕對新手友好強化學習
- 技術 | 強化學習入門以及程式碼實現強化學習
- 【強化學習】強化學習/增強學習/再勵學習介紹強化學習
- 強化學習入門知識與經典專案分析1.3強化學習
- [MySQL光速入門]008 SQL強化練習MySql
- 強化學習強化學習
- 強化學習-學習筆記13 | 多智慧體強化學習強化學習筆記智慧體
- 深度強化學習day01初探強化學習強化學習
- 【強化學習】強化學習術語表(A-Z)強化學習
- 【強化學習篇】--強化學習案例詳解一強化學習
- 強化學習入門之智慧走迷宮-策略迭代演算法強化學習演算法
- 強化學習入門第一講 馬爾科夫決策過程強化學習馬爾科夫
- [MySQL光速入門]009 SQL強化練習答案MySql
- 強化學習10——迭代學習強化學習
- 【強化學習篇】--強化學習從初識到應用強化學習
- [譯] 強化學習入門篇:Simmer 模擬平臺高階使用技巧強化學習
- 強化學習入門之智慧走迷宮-價值迭代演算法強化學習演算法
- 深度強化學習入門:用TensorFlow構建你的第一個遊戲AI強化學習遊戲AI
- 從俄羅斯方塊,邁向強化學習大門強化學習
- matplotlib 強化學習強化學習
- 強化學習之CartPole強化學習
- 強化學習筆記強化學習筆記
- 強化學習-簡介強化學習
- 深度強化學習揭秘強化學習
- 再探強化學習強化學習
- 強化學習分類強化學習
- 強化學習-學習筆記3 | 策略學習強化學習筆記
- mybatis入門學習MyBatis
- Nginx入門學習Nginx
- Vue入門學習Vue
- ROS入門學習ROS
- nuxt 入門學習UX
- GORM學習入門GoORM
- afl入門學習
- Spark入門學習Spark
- React入門學習React
- 【強化學習】強化學習的基本概念與程式碼實現強化學習
- 深度學習及深度強化學習研修深度學習強化學習