流式深度學習終於奏效了！強化學習之父Richard Sutton力薦

自然智慧（Natural intelligence）過程就像一條連續的流，可以實時地感知、行動和學習。流式學習是 Q 學習和 TD 等經典強化學習 (RL) 演算法的運作方式，它透過使用最新樣本而不儲存樣本來模仿自然學習。這種方法也非常適合資源受限、通訊受限和隱私敏感的應用程式。

然而，在深度強化學習中，學習器（learners ）幾乎總是使用批次更新和重放緩衝區，這種方式使得它們在計算上很昂貴，並且與流式學習不相容。

研究認為批次深度強化學習之所以普遍，是因為它的樣本效率高。流式深度強化學習存在樣本效率問題，經常出現不穩定和學習失敗的情況。這一現象稱為流式障礙。

就像下圖展示的，流式強化學習需要從即時單個樣本進行更新，而無需儲存過去的樣本，而批次強化學習則依賴於儲存在重放緩衝區中的過去樣本的批次更新。

為了解決流式障礙，本文來自阿爾伯塔大學等機構的研究者提出了 stream-x 演算法，這是第一類深度強化學習演算法，用於克服預測和控制流式障礙，並匹配批次強化學習的樣本效率。

論文地址：https://openreview.net/pdf?id=yqQJGTDGXN
專案地址：https://github.com/mohmdelsayed/streaming-drl
論文標題：Deep Reinforcement Learning Without Experience Replay, Target Networks, or Batch Updates

論文作者還提供了 stream-x 演算法的最小實現（大約 150 行程式碼），感興趣的讀者可以參考原專案。

本文證明了 stream-x 演算法能夠克服流式障礙。

在電力消耗預測任務、MuJoCo Gym、DM Control Suite、MinAtar 和 Atari 2600 上的結果證明，該方法能夠作為現成的解決方案，克服流式障礙，提供以前無法透過流式方法實現的結果，甚至超越批次 RL 的效能。特別是，stream AC 演算法在一些複雜的環境中達到了已知的最佳效能。

如下所示，經典的流方法（例如 Classic Q ）和批處理 RL 方法的流式版本（例如 PPO1）由於流式障礙而表現不佳。相比之下， stream-x 演算法（例如 stream Q ）克服了流式障礙，並與批處理 RL 演算法競爭，證明了其穩定性和魯棒性。

這項研究得到了強化學習之父 Richard Sutton 的轉發和評論：

「最初的強化學習（RL）演算法受自然學習的啟發，是線上且增量式的 —— 也就是說，它們是以流的方式進行學習的，每當新的經驗增量發生時就學習，然後將其丟棄，永不再次處理。

流式演算法簡單而優雅，但在深度學習中，RL 的首次重大成功並非來自流式演算法。相反，像 DQN（深度 Q 網路）這樣的方法將經驗流切割成單獨的轉換（transitions），然後以任意批次進行儲存和取樣。隨後的一系列工作遵循、擴充套件並完善了這種批次方法，發展出非同步和離線強化學習，而流式方法卻停滯不前，無法在流行的深度學習領域中取得良好效果。

直到現在，阿爾伯塔大學的研究人員已經證明，在 Atari 和 Mujoco 任務上，流式強化學習（Streaming RL）演算法可以與 DQN 一樣有效。

在我看來，他們似乎是第一批熟悉流式強化學習演算法的研究人員，認真地解決深度強化學習問題，而不受批次導向的軟體和批次導向的監督學習思維方式的過度影響。」