學界 | 量化評估、演算法擴充：強化學習研究的10大原則

dicksonjyl560101發表於2018-12-21

原文網址 : http://blog.itpub.net/29829936/viewspace-2285961/

演算法強化學習

http://blog.itpub.net/31562039/viewspace-2285157/

大資料文摘出品

編譯：蔣寶尚

今年9月份舉辦的深度學習Indaba2018峰會的乾貨確實不少，昨天文摘菌給大家整理了27位大咖關於自然語言處理的精彩問答。今天文摘菌再給大家整理一份關於強化學習的10個原則，不僅在強化學習中有用，在機器學習研究中也能夠提供一些參考。

這10個原則是一位來自Insight資料分析研究中心的博士生Sebastian Ruder在參會期間對David Silver報告進行的整理，除了Ruder自己的解析外，也把他自己拍的照片分享了出來。

評估推動進步

學界 | 量化評估、演算法擴充：強化學習研究的10大原則

量化的評估才能推動進步。評估獎勵的選擇決定了進步的方向，要確保評估指標與目標密切相關，避免主觀評價（例如人類學科）。還有一點，雙Q學習優於單Q學習，因為後者能減少偏見。

演算法的可擴充套件性決定成功

學界 | 量化評估、演算法擴充：強化學習研究的10大原則

演算法如何擴充套件非常重要，要避免效能上限。深度學習非常棒，因為它可以有效地擴充套件，但是樣本效率同樣重要。

演算法的可擴充套件性的表現取決於資源，而演算法的可擴充套件性決定是否成功：那麼給予更多資源，效能如何提高？值得一提的是，這裡的資源指的是計算，記憶體或資料。

通用性，即演算法在其他任務上的表現非常重要

學界 | 量化評估、演算法擴充：強化學習研究的10大原則

關鍵是要設計一系列具有挑戰性的任務，即應該對不同的新任務進行評估。避免過度使用當前的任務。

相信Agent的經驗

學界 | 量化評估、演算法擴充：強化學習研究的10大原則

不要依賴人類的專業知識，不要依賴於工程特徵。在資料有限時，領域專業知識和歸納偏差非常重要。

一些任務可能看起來不太可能完成，但是，你確實能在其中學到很多經驗。這種任務或者專案，通常滿足這三點：

1.很難接受RL的核心問題。

1.是AI的核心問題

3.非常值得你去努力

狀態應該是主觀的

學界 | 量化評估、演算法擴充：強化學習研究的10大原則

應將狀態建立為模型的狀態，即RNN的隱藏狀態，而不是根據環境定義。只有agent對世界的主觀看法才是重要的。不要推理外部現實，因為達到的效果非常有限。

控制流

學界 | 量化評估、演算法擴充：強化學習研究的10大原則

Agent影響資料流和體驗。Agent應該有能夠訪問控制環境的功能。重點不僅在於最大化獎勵，還在於建立對流的控制。

價值函式塑造世界

學界 | 量化評估、演算法擴充：強化學習研究的10大原則

價值函式有效地總結了當前和未來的狀況。多值函式允許我們模擬世界的多個方面。可以幫助控制流。

從想象的經驗（imagined experience）中學習

學界 | 量化評估、演算法擴充：強化學習研究的10大原則

接下來該怎樣規劃？同樣的，RL演算法可以從想象的經驗（imagined experience）中學習，如Alphago中使用MCTS和值函式。

利用函式逼近器

學界 | 量化評估、演算法擴充：強化學習研究的10大原則

可以將演算法複雜度揉進神經網路架構，甚至MCTS，分層控制等也可以用NN建模。然後要真正理解：我們從模型學到了什麼。

學會學習

學界 | 量化評估、演算法擴充：強化學習研究的10大原則

必須精通元學習，然後，你可能不再需要手工設定網路架構，一切都是端到端學習。總而言之，神經網路要通過儘可能少的人工干預來處理事情。但是，歸納偏差應該仍然有用。

相關報導：

https://twitter.com/seb_ruder/status/1040235236284669952?utm_campaign=NLP%20News&utm_medium=email&utm_source=Revue%20newsletter

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/29829936/viewspace-2285961/，如需轉載，請註明出處，否則將追究法律責任。

量化評估、演算法擴充：強化學習研究的10大原則
2018-12-13
演算法強化學習
強化學習10——迭代學習
2020-10-26
強化學習
「AlphaGo 之父」David Silver最新演講，傳授強化學習的十大原則
2018-09-26
Go強化學習
強化學習(十七) 基於模型的強化學習與Dyna演算法框架
2019-02-15
強化學習模型演算法框架
演算法金 | 必會的機器學習評估指標
2024-06-28
演算法機器學習指標
ES6學習第五章正則的擴充套件
2021-11-27
套件
學習中遇到的擴充摘要
2019-04-10
sql中的擴充套件學習
2018-05-06
SQL套件
LLM學習(5)——系統評估與最佳化
2024-04-26
機器學習之模型評估
2019-06-21
機器學習模型
個人技能評估學習指南
2024-09-08
入職擴充學習--SVN
2019-04-17
強化學習-學習筆記10 | 經驗回放
2022-07-08
強化學習筆記
Salesforce LWC學習(二十九) getRecordNotifyChange（LDS擴充增強篇）
2020-12-18
Salesforce
強化學習-學習筆記13 | 多智慧體強化學習
2022-07-10
強化學習筆記智慧體
強化學習之路一 QLearning 演算法
2023-03-15
強化學習演算法
強化學習
2020-12-05
強化學習
【強化學習】變革尚未成功：深度強化學習研究的短期悲觀與長期樂觀
2018-03-25
強化學習
Laravel深入學習7 – 框架的擴充套件
2019-02-16
Laravel框架套件
【強化學習篇】--強化學習案例詳解一
2018-06-30
強化學習
【強化學習】強化學習術語表（A-Z）
2020-10-25
強化學習
深度強化學習day01初探強化學習
2019-06-27
強化學習
學習筆記：深度學習中的正則化
2020-04-06
筆記深度學習
機器學習-學習筆記(二) --> 模型評估與選擇
2022-06-09
機器學習筆記模型
PHP的Mhash擴充套件函式的學習
2021-09-09
PHP套件函式
強化學習筆記之【SAC演算法】
2024-10-11
強化學習筆記演算法
halcon學習擴充系列—交集intersection的擴充運算元intersection_expand
2020-12-14
深度學習——正則化
2022-01-25
深度學習
機器學習演算法筆記之7：模型評估與選擇
2020-04-06
機器學習演算法筆記模型
【強化學習】強化學習的基本概念與程式碼實現
2018-03-21
強化學習
強化學習-學習筆記3 | 策略學習
2022-07-05
強化學習筆記
強化學習-學習筆記7 | Sarsa演算法原理與推導
2022-07-07
強化學習筆記演算法
es6陣列擴充套件的學習
2018-06-17
陣列套件
學習PHP中YAML操作擴充套件的使用
2021-11-23
PHPYAML套件
強化學習演算法筆記之【DDPG演算法】
2024-10-19
強化學習演算法筆記
matplotlib 強化學習
2020-06-21
強化學習
動手學強化學習（四）：動態規劃演算法
2024-03-03
強化學習動態規劃演算法
Dopamine - 靈活、可重複的強化學習研究新框架
2018-09-05
強化學習框架

學界 | 量化評估、演算法擴充：強化學習研究的10大原則

相關文章