在獎勵中減去平均獎勵
但這些強化學習方法仍有改進空間。近日,強化學習之父、阿爾伯塔大學教授 Richard Sutton 的團隊低調更新了一篇論文,其中提出了一種新的通用思想 Reward Centering,並稱該思想適用於幾乎所有強化學習演算法。這裡我們將其譯為「獎勵聚中」。
該論文是首屆強化學習會議(RLC 2024)的入選論文之一。一作 Abhishek Naik 剛剛從阿爾伯塔大學獲得博士學位,他是 Sutton 教授的第 12 位博士畢業生。
論文標題:Reward Centering 論文地址:https://arxiv.org/pdf/2405.09999
這裡研究的問題是持續性問題,即智慧體和環境的互動會無限地進行。智慧體的目標是最大化長期獲得的平均獎勵。為此,該團隊考慮了估計每個狀態的預期折扣獎勵總和的方法:
獎勵聚中思想很簡單:從獎勵中減去實際觀察到的獎勵的平均值。這樣做會讓修改後的獎勵看起來以均值為中心。
這種以均值為中心的獎勵在 bandit 設定中很常見。舉個例子,Sutton 和 Barto 在 2018 年的一篇論文中表明,根據觀察到的獎勵估計和減去平均獎勵可以顯著提高學習速度。
而這裡,該團隊證明所有強化學習演算法都能享受到這種好處,並且當折現因子 γ 接近 1 時,好處會更大。
獎勵聚中之所以這麼好,一個底層原因可透過折現價值函式的羅朗級數(Laurent Series)分解來揭示。
折現價值函式可被分解成兩部分。其中一部分是一個常數,並不依賴狀態或動作,因此並不參與動作選取。
用數學表示的話,對於與折現因子 γ 對應的策略 π 的表格折現價值函式:
這種 Laurent 級數分解能解釋獎勵聚中為何有助於解決 bandit 問題。
在完整的強化學習問題中,與狀態無關的偏移可能會相當大。舉個例子,圖 2 中展示的三狀態馬爾科夫獎勵過程。如果狀態從 A 變成 B,則獎勵是 +3,否則都是 0。平均獎勵為 r(π) = 1。右側表中給出了三個折現因子的折現狀態值。
可以看到,這個已經聚中的值在幅度上要小得多,並且當折現因子增大時,也只會發生輕微變化。這裡還給出了微分值以供參考。
這些趨勢普遍成立:對於任意問題,折現值的幅度都會隨著折現因子接近 1 而急劇增加,而聚中折現值則變化不大,並接近微分值。
從數學上看,聚中折現值是平均聚中獎勵的預期折現和:
因此,獎勵聚中能夠透過兩個元件(恆定平均獎勵和聚中折現值函式)捕獲折現值函式中的所有資訊。這種分解非常有價值:
當γ→1時,折現值趨於爆炸,但聚中折現值仍然很小且易於處理。 如果問題的獎勵偏移了一個常數 c,那麼折現值的幅度就會增加 c/(1 − γ),但聚中折現值會保持不變,因為平均獎勵也會增加 c。
使用獎勵聚中時,還可以設計出在智慧體的生命週期內可以改變折現因子(演算法引數)的演算法。對於標準折現演算法來說,這通常是低效或無效的,因為它們的非聚中值可能會發生巨大變化。相比之下,聚中值可能變化不大,當折現因子接近 1 時,變化會變得微不足道。
當然,為了獲得這些潛在好處,首先需要基於資料估計出平均獎勵。
簡單獎勵聚中以及基於價值的獎勵聚中
該團隊表明,如果行為策略採取目標策略所做的所有操作,那麼可以使用 TD 誤差很好地近似目標策略的平均獎勵:
無聚中的 TD 學習(藍色)最終達到了與 oracle 聚中演算法(橙色)相同的誤差率,這符合預期。
簡單聚中方法(綠色)確實有助於更快地降低 RMSVE,但其最終誤差率會稍微高一點。這也符合預期,因為平均獎勵估計會隨時間而變化,導致與非聚中或 oracle 聚中版本相比,更新的變數更大。當 γ 更大時也有類似的趨勢。這些實驗表明,簡單的獎勵聚中技術在在策略設定中非常有效,並且對於較大的折扣因子,效果更為明顯。
在學習率和漸近誤差方面,基於價值的獎勵聚中(紅色)在在策略問題上與簡單聚中差不多。但在離策略問題上,基於價值的聚中能以更快的速度得到更低的 RMSVE,同時最終誤差率也差不多。
總體而言,可以觀察到獎勵聚中可以提高折現獎勵預測演算法(如 TD 學習)的學習率,尤其是對於較大的折扣因子。雖然簡單獎勵聚中方法已經相當有效,但基於價值的獎勵聚中更適合一般的離策略問題。
此外,該團隊還研究了獎勵聚中對 Q 學習的影響。具體的理論描述和實驗過程請訪問原論文。
看起來,獎勵聚中這個看起來非常簡單的方法確實可以顯著提升強化學習演算法。你怎麼看待這一方法,會在你的研究和應用中嘗試它嗎?