學界 | 量化評估、演算法擴充:強化學習研究的10大原則
http://blog.itpub.net/31562039/viewspace-2285157/
大資料文摘出品
編譯:蔣寶尚
今年9月份舉辦的深度學習Indaba2018峰會的乾貨確實不少,昨天文摘菌給大家整理了27位大咖關於自然語言處理的精彩問答。今天文摘菌再給大家整理一份關於強化學習的10個原則,不僅在強化學習中有用,在機器學習研究中也能夠提供一些參考。
這10個原則是一位來自Insight資料分析研究中心的博士生Sebastian Ruder在參會期間對David Silver報告進行的整理,除了Ruder自己的解析外,也把他自己拍的照片分享了出來。
評估推動進步
量化的評估才能推動進步。評估獎勵的選擇決定了進步的方向,要確保評估指標與目標密切相關,避免主觀評價(例如人類學科)。還有一點,雙Q學習優於單Q學習,因為後者能減少偏見。
演算法的可擴充套件性決定成功
演算法如何擴充套件非常重要,要避免效能上限。深度學習非常棒,因為它可以有效地擴充套件,但是樣本效率同樣重要。
演算法的可擴充套件性的表現取決於資源,而演算法的可擴充套件性決定是否成功:那麼給予更多資源,效能如何提高?值得一提的是,這裡的資源指的是計算,記憶體或資料。
通用性,即演算法在其他任務上的表現非常重要
關鍵是要設計一系列具有挑戰性的任務,即應該對不同的新任務進行評估。避免過度使用當前的任務。
相信Agent的經驗
不要依賴人類的專業知識,不要依賴於工程特徵。在資料有限時,領域專業知識和歸納偏差非常重要。
一些任務可能看起來不太可能完成,但是,你確實能在其中學到很多經驗。這種任務或者專案,通常滿足這三點:
1.很難接受RL的核心問題。
1.是AI的核心問題
3.非常值得你去努力
狀態應該是主觀的
應將狀態建立為模型的狀態,即RNN的隱藏狀態,而不是根據環境定義。只有agent對世界的主觀看法才是重要的。不要推理外部現實,因為達到的效果非常有限。
控制流
Agent影響資料流和體驗。Agent應該有能夠訪問控制環境的功能。重點不僅在於最大化獎勵,還在於建立對流的控制。
價值函式塑造世界
價值函式有效地總結了當前和未來的狀況。多值函式允許我們模擬世界的多個方面。可以幫助控制流。
從想象的經驗(imagined experience)中學習
接下來該怎樣規劃?同樣的,RL演算法可以從想象的經驗(imagined experience)中學習,如Alphago中使用MCTS和值函式。
利用函式逼近器
可以將演算法複雜度揉進神經網路架構,甚至MCTS,分層控制等也可以用NN建模。然後要真正理解:我們從模型學到了什麼。
學會學習
必須精通元學習,然後,你可能不再需要手工設定網路架構,一切都是端到端學習。總而言之,神經網路要透過儘可能少的人工干預來處理事情。但是,歸納偏差應該仍然有用。
相關報導:
%20News&utm_medium=email&utm_source=Revue%20newsletter
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2285961/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 量化評估、演算法擴充:強化學習研究的10大原則演算法強化學習
- 強化學習10——迭代學習強化學習
- 強化學習(十七) 基於模型的強化學習與Dyna演算法框架強化學習模型演算法框架
- 【強化學習】強化學習/增強學習/再勵學習介紹強化學習
- 個人技能評估 學習指南
- 「AlphaGo 之父」David Silver最新演講,傳授強化學習的十大原則Go強化學習
- LLM學習(5)——系統評估與最佳化
- 學習中遇到的擴充摘要
- sql中的擴充套件學習SQL套件
- ES6學習 第五章 正則的擴充套件套件
- 強化學習-學習筆記10 | 經驗回放強化學習筆記
- 強化學習-學習筆記13 | 多智慧體強化學習強化學習筆記智慧體
- 入職擴充學習--SVN
- 強化學習強化學習
- 【強化學習】變革尚未成功:深度強化學習研究的短期悲觀與長期樂觀強化學習
- 深度強化學習day01初探強化學習強化學習
- 【強化學習】強化學習術語表(A-Z)強化學習
- 【強化學習篇】--強化學習案例詳解一強化學習
- Salesforce LWC學習(二十九) getRecordNotifyChange(LDS擴充增強篇)Salesforce
- 數論學習筆記 (4):擴充套件歐幾里得演算法筆記套件演算法
- 強化學習-學習筆記3 | 策略學習強化學習筆記
- 強化學習之路一 QLearning 演算法強化學習演算法
- 強化學習筆記之【SAC演算法】強化學習筆記演算法
- Laravel深入學習7 – 框架的擴充套件Laravel框架套件
- 高擴充套件性的學習路線套件
- 【強化學習】強化學習的基本概念與程式碼實現強化學習
- 學習筆記:深度學習中的正則化筆記深度學習
- 【強化學習篇】--強化學習從初識到應用強化學習
- Dopamine - 靈活、可重複的強化學習研究新框架強化學習框架
- 強化學習-學習筆記7 | Sarsa演算法原理與推導強化學習筆記演算法
- PHP的Mhash擴充套件函式的學習PHP套件函式
- 動手學強化學習(四):動態規劃演算法強化學習動態規劃演算法
- 強化學習演算法筆記之【DDPG演算法】強化學習演算法筆記
- 深度學習+深度強化學習+遷移學習【研修】深度學習強化學習遷移學習
- 強化學習-學習筆記2 | 價值學習強化學習筆記
- 深度學習——正則化深度學習
- 深度學習及深度強化學習研修深度學習強化學習
- 強化學習-學習筆記5 | AlphaGo強化學習筆記Go