從資料增強的隱藏作用出發,揭示視覺強化學習可塑性損失的獨特機制

机器之心發表於2024-09-28
圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


Sutton 等研究人員近期在《Nature》上發表的研究《Loss of Plasticity in Deep Continual Learning》揭示了一個重要發現:在持續學習環境中,標準深度學習方法的表現竟不及淺層網路。研究指出,這一現象的主要原因是 "可塑性損失"(Plasticity Loss):深度神經網路在面對非平穩的訓練目標持續更新時,會逐漸喪失從新資料中學習的能力

深度強化學習任務中的神經網路實際上面臨著更為嚴峻的可塑性損失問題。這源於強化學習智慧體必須透過與環境的持續互動來不斷調整其策略,使得非平穩的資料流和最佳化目標成為深度強化學習正規化中的固有特徵。值得注意的是,即使在單任務強化學習中,線上資料收集和策略更新也會導致資料分佈和最佳化目標持續動態變化。因此,嚴重的可塑性損失已然成為制約深度強化學習演算法樣本利用效率的關鍵瓶頸

要突破視覺強化學習樣本利用效率低下這一瓶頸,關鍵在於深入解構深度強化學習中神經網路可塑性損失的細節,從而明確問題的根源。針對這一挑戰,來自清華大學、悉尼大學、華盛頓大學、京東探索研究院和南洋理工大學的研究人員展開了一項全面而深入的研究。他們選取視覺強化學習任務作為深度強化學習的典型代表,創新性地從資料、模組和訓練階段三個關鍵角度對神經網路的可塑性損失特徵進行分析。

圖片

  • 論文連結:https://arxiv.org/abs/2310.07418
  • 程式碼連結:https://github.com/Guozheng-Ma/Adaptive-Replay-Ratio

這項研究不僅解釋了視覺強化學習中一些此前難以理解的反常現象,還揭示了一系列與直覺相悖的有趣結論。該研究成果已在 ICLR 2024 上發表,本文將對其中一系列引人深思的發現進行進一步梳理和總結。其中最核心的要點可概括如下:

1. 揭示了資料增強的作用機制:簡單的資料增強能夠顯著提升視覺強化學習的樣本利用效率,其效果令人矚目。在自動駕駛任務 CARLA 中,引入資料增強將效能提高至基準的 235%。更令人驚訝的是,在 DeepMind Control suite 的 9 種機器人控制任務中,資料增強平均將效能提升至基準的 431%。然而,儘管這些驚人的效果早已被觀察到,但資料增強為何能帶來如此顯著的效能提升一直是一個未解之謎。該研究的突破性發現揭示了視覺強化學習中資料增強背後的作用機制:它能直接有效地緩解訓練過程中的可塑性損失。

2. 明確了樣本利用效率的關鍵瓶頸:過去多年,學界普遍認為導致視覺強化學習樣本利用效率低下的主要瓶頸在於訓練視覺表徵器的難度。然而,這項研究透過一系列巧妙的實驗,顛覆了這一長期以來的觀點。研究結果表明,目前限制視覺強化學習樣本利用效率的關鍵因素並非編碼器(Encoder)的視覺表徵能力,而是評價者網路(Critic)的可塑性損失


3. 突出了訓練早期干預的重要性:可塑性損失指的是模型的學習能力隨著訓練不斷減弱的現象。然而,不同訓練階段對於避免災難性可塑性損失的作用是否有所不同,這一問題此前一直未被深入探索。該研究填補了這一空白,揭示了一個關鍵發現:訓練早期對 Critic 網路可塑性的干預極為重要:若未能在訓練早期及時將網路可塑性恢復到高水平,將會導致訓練後期難以逆轉的災難性可塑性損失

從視覺強化學習中的資料增強開始

圖片

資料增強已成為實現高樣本利用效率的視覺強化學習演算法中不可或缺的元件。與監督學習中資料增強僅帶來漸進式改進不同,在多種視覺強化學習任務中,資料增強對演算法效果起到了決定性作用。如上圖所示,在不使用資料增強的情況下,演算法幾乎無法訓練出有效的策略。相反,僅僅引入對輸入觀察影像的簡單資料增強,就能在不修改演算法其他部分的前提下,實現一個具有高漸進效果和樣本效率的視覺強化學習演算法。

這種顯著的提升顯然無法用傳統視覺任務中資料增強的作用機理來解釋。更可能的是,資料增強有效緩解或解決了強化學習中的一個關鍵瓶頸。在沒有資料增強的情況下,智慧體的效能在短暫上升後幾乎停滯,這一現象與智慧體遭受可塑性損失,無法從新收集的資料中學習的後果非常吻合。基於這一觀察,該研究設計了巧妙的實驗,旨在驗證資料增強的背後作用機制是否確實在於有效緩解了災難性的可塑性損失。

圖片

Reset 是一種簡單而直接的方法,透過週期性地重新初始化智慧體網路最後幾層全連線層來恢復神經網路的可塑性。在這項研究中,研究人員巧妙地將 Reset 作為一種診斷工具,用來判斷使用與不使用資料增強時網路的可塑性損失情況。實驗結果揭示了以下關鍵發現:

  • 在不使用資料增強的情況下,實施 Reset 均能夠帶來顯著的效能提升。這明確地表明,在缺乏資料增強的訓練過程中,網路確實經歷了嚴重的可塑性損失。
  • 但當引入資料增強後,Reset 的實施只帶來輕微的改善,有時甚至會導致效能下降。這一結果表明,只透過資料增強就能有效提升智慧體的可塑性。

這一巧妙的實驗證明資料增強能夠非常顯著地緩解視覺強化學習訓練過程中的可塑性損失,從而解釋了為什麼資料增強對於提高樣本利用效率如此關鍵。透過有效維持神經網路的可塑性,資料增強實際上延長了神經網路的有效學習期,使其能夠更充分地利用每一個訓練樣本。

圖片

研究還對比了資料增強和其他先前提出的用來緩解可塑性損失的方法。實驗結果再次證明,作為一種從資料角度出發(data-centric)的方法,資料增強在緩解可塑性損失方面展現出卓越的效果,相對於目前已有的其他方案具有明顯優勢

解構視覺強化學習不同模組中可塑性損失的不同影響

圖片

相較於基於狀態向量的強化學習任務,視覺強化學習一直面臨著樣本利用效率嚴重低下的困擾。近年來,縮小基於影像和基於狀態向量的強化學習在樣本利用效率上的差距已成為整個視覺強化學習社群關注的重點。這兩種學習正規化的關鍵區別在於:視覺強化學習需要在進行策略最佳化的同時進行表徵學習。基於這一認識,大量研究致力於透過改進視覺表徵學習來提升視覺強化學習的樣本利用效率。常見的方法包括新增額外的輔助表徵任務,或使用預訓練的視覺編碼器(Encoder)。但是,高維視覺表徵真的是影響視覺強化學習樣本利用效率的關鍵瓶頸嗎?

圖片

該研究透過一個巧妙的實驗回答了這個問題。研究者採用了 PIE-G 提出的預訓練編碼器方案,並測試了資料增強對訓練過程的影響。這個實驗設計有兩個關鍵點:

  • 使用在 ImageNet 上預訓練的編碼器,確保了足夠的視覺表徵能力。
  • 在整個訓練過程中保持編碼器不變,排除了資料增強對編碼器的直接影響。

研究假設:如果表徵學習是當前限制樣本利用效率的關鍵,或者可塑性損失主要發生在編碼器,那麼資料增強的使用與否不應顯著影響演算法的訓練過程。

圖片

然而,實驗結果令人驚訝:

  • 資料增強對基於預訓練編碼器的視覺強化學習的樣本利用效率產生了顯著影響。
  • 在不使用資料增強的情況下,即使是簡單的 Walker Walk 任務,智慧體的效能在訓練後期也明顯停滯,表現出嚴重的可塑性損失。

這一發現具有重要意義:即使有了良好的視覺表徵,視覺強化學習仍然存在嚴重的可塑性損失。這表明對於當前的視覺強化學習演算法,高維視覺的表徵已經不構成影響樣本利用效率的關鍵瓶頸。更為關鍵的是,該實驗證明了嚴重的可塑性損失並非發生在編碼器模組,而應該是存在於 Actor 或 Critic 中。

研究者進一步使用可塑性注入(Plasticity Injection)作為可靠的診斷工具來最終判定災難性的可塑性損失究竟發生在 Actor 還是 Critic 中。不同於 Reset,可塑性注入在恢復網路可塑性的同時不會破壞網路現有知識,因此不會出現明顯的效能波動。這使得可塑性注入更適合用來作為判斷特定網路模組是否發生災難性可塑性損失的診斷工具。

圖片

實驗結果揭示了兩個關鍵發現:

  • 在使用資料增強的情況下,對 Actor 或者 Critic 實施可塑性注入都不會明顯影響智慧體的訓練過程。這表明在 Walker Run 任務中,僅僅透過使用資料增強就足以維持訓練所需的網路可塑性。
  • 在初始 100 萬步訓練中不使用資料增強的情況下,對 Critic 實施可塑性注入會導致效能顯著提升。相反,對 Actor 進行可塑性注入也並不能使智慧體恢復正常訓練。這一結果充分證明,Critic 嚴重的可塑性損失是造成視覺強化學習樣本利用效率嚴重低下的關鍵原因

圖片

分析視覺強化學習不同訓練階段中可塑性損失的不同性質

圖片

圖片

最後,該研究設計了一個巧妙的實驗,透過在訓練過程中的不同時間點開啟或關閉資料增強,來探究資料增強在不同訓練階段對解決可塑性損失的影響。具體來說,他們在訓練進行到三分之一時改變資料增強的使用狀態,觀察其對訓練效果的影響。這個實驗揭示了兩個重要發現:

  • 在 Critic 的可塑性已經恢復後停止使用資料增強,並不會明顯影響訓練效率。這表明在訓練的後期,不需要採取特定干預來維持可塑性
  • 當可塑性已經顯著喪失,且未能在早期階段及時干預的情況下,後期引入資料增強也無法使智慧體恢復正常的訓練。這一觀察強調了在訓練早期維持可塑性的至關重要性,否則,這種損失將變得無法挽回

這一實驗不僅證實了資料增強在訓練早期階段的關鍵作用,更重要的是,它揭示了可塑性損失的不可逆特性。實驗結果表明,如果在訓練早期沒有透過有效干預(如資料增強)使 Critic 網路的可塑性恢復到較高水平,就會導致不可逆的災難性可塑性損失。

圖片

在訓練的初始階段,由於收集到的經驗資料質量低且數量有限,透過自舉學習所得出的訓練目標(Target Q Value)表現出高度的非平穩性,並顯著偏離真實的 Q 值。這種嚴重的非平穩性導致 Critic 的可塑性迅速下降,使其失去從新收集資料中繼續最佳化策略的能力。隨之,智慧體持續收集低質量的資料,形成了一個惡性迴圈。這一連鎖反應最終阻礙了智慧體獲得有效策略,導致訓練早期階段出現災難性的可塑性損失

然而,訓練過程的後期呈現出不同的特徵:儘管 Critic 的可塑性在訓練早期恢復到高水平後仍然會緩慢下降,但這種下降可以被理解為逐步逼近當前任務最優值函式的過程。對於不需要智慧體保持持續學習能力的單任務視覺強化學習而言,這種後期的可塑性損失被視為良性的

這種在訓練不同階段所觀察到的可塑性變化差異,為解決視覺強化學習中的可塑性損失挑戰提供了新的視角,暗示了針對訓練不同階段採取差異化策略的可能性。

基於對視覺強化學習中可塑性損失的深入分析,該研究最終提出了一種創新的訓練方法 —— 自適應回放比例。這種方法巧妙地根據 Critic 網路的可塑性水平動態調整回放比例(Replay Ratio),成功破解了視覺強化學習演算法難以使用高回放比例的長期困境。對該方法的技術細節感興趣的讀者,可以前往論文原文深入瞭解。

相關文章