AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
論文連結:https://arxiv.org/abs/2310.07418 程式碼連結:https://github.com/Guozheng-Ma/Adaptive-Replay-Ratio
在不使用資料增強的情況下,實施 Reset 均能夠帶來顯著的效能提升。這明確地表明,在缺乏資料增強的訓練過程中,網路確實經歷了嚴重的可塑性損失。 但當引入資料增強後,Reset 的實施只帶來輕微的改善,有時甚至會導致效能下降。這一結果表明,只透過資料增強就能有效提升智慧體的可塑性。
使用在 ImageNet 上預訓練的編碼器,確保了足夠的視覺表徵能力。 在整個訓練過程中保持編碼器不變,排除了資料增強對編碼器的直接影響。
資料增強對基於預訓練編碼器的視覺強化學習的樣本利用效率產生了顯著影響。 在不使用資料增強的情況下,即使是簡單的 Walker Walk 任務,智慧體的效能在訓練後期也明顯停滯,表現出嚴重的可塑性損失。
在使用資料增強的情況下,對 Actor 或者 Critic 實施可塑性注入都不會明顯影響智慧體的訓練過程。這表明在 Walker Run 任務中,僅僅透過使用資料增強就足以維持訓練所需的網路可塑性。 在初始 100 萬步訓練中不使用資料增強的情況下,對 Critic 實施可塑性注入會導致效能顯著提升。相反,對 Actor 進行可塑性注入也並不能使智慧體恢復正常訓練。這一結果充分證明,Critic 嚴重的可塑性損失是造成視覺強化學習樣本利用效率嚴重低下的關鍵原因。
在 Critic 的可塑性已經恢復後停止使用資料增強,並不會明顯影響訓練效率。這表明在訓練的後期,不需要採取特定干預來維持可塑性。 當可塑性已經顯著喪失,且未能在早期階段及時干預的情況下,後期引入資料增強也無法使智慧體恢復正常的訓練。這一觀察強調了在訓練早期維持可塑性的至關重要性,否則,這種損失將變得無法挽回。