文章標題:Reward Hacking in Reinforcement Learning 文章連結:https://lilianweng.github.io/posts/2024-11-28-reward-hacking/ 翁荔部落格:https://lilianweng.github.io/
Reward hacking (Amodei et al., 2016)
Reward corruption (Everitt et al., 2017)
Reward tampering (Everitt et al. 2019)
Specification gaming (Krakovna et al., 2020)
Objective robustness (Koch et al. 2021)
Goal misgeneralization (Langosco et al. 2022)
Reward misspecifications (Pan et al. 2022)
即使目標正確,模型也無法有效泛化。當演算法缺乏足夠的智慧或能力時,就會發生這種情況。 該模型具有很好的泛化能力,但追求的目標與訓練時的目標不同。當智慧體獎勵與真實獎勵函式不同時,就會發生這種情況。這被稱為目標魯棒性(Koch et al. 2021)或目標錯誤泛化(Koch et al. 2021)。
環境或目標指定錯誤:模型透過入侵環境或最佳化與真實獎勵目標不一致的獎勵函式來學習不良行為,以獲得高額獎勵 —— 例如當獎勵指定錯誤或缺乏關鍵要求時。 獎勵篡改:模型學習干擾獎勵機制本身。
訓練抓取物體的機械手可以學會如何透過將手放在物體和相機之間來欺騙人:https://openai.com/index/learning-from-human-preferences/ 訓練最大化跳躍高度的智慧體可能會利用物理模擬器中的錯誤來實現不切實際的高度:https://arxiv.org/abs/1803.03453 智慧體被訓練騎腳踏車到達目標,並在接近目標時獲得獎勵。然後,智慧體可能會學習在目標周圍繞小圈騎行,因為遠離目標時不會受到懲罰:https://people.eecs.berkeley.edu/~pabbeel/cs287-fa09/readings/NgHaradaRussell-shaping-ICML1999.pdf 在足球比賽中,當智慧體觸球時會分配獎勵,於是它會學習保持在球旁邊以高頻觸球:https://people.eecs.berkeley.edu/~pabbeel/cs287-fa09/readings/NgHaradaRussell-shaping-ICML1999.pdf 在 Coast Runners 遊戲中,智慧體控制一艘船,目標是儘快完成賽艇比賽。當它在賽道上擊中綠色方塊時獲得塑造獎勵時,它會將最佳策略更改為繞圈騎行並一遍又一遍地擊中相同的綠色方塊:https://deepmind.google/discover/blog/specification-gaming-the-flip-side-of-ai-ingenuity/ 「The Surprising Creativity of Digital Evolution」(Lehman et al. 2019)—— 本文有許多關於如何最佳化錯誤指定的適應度函式可能導致令人驚訝的「hacking」或意想不到的進化或學習結果的例子:https://arxiv.org/abs/1803.03453 人工智慧示例中的規範遊戲列表,由 Krakovna et al.於 2020 年收集:https://deepmind.google/discover/blog/specification-gaming-the-flip-side-of-ai-ingenuity/
用於生成摘要的語言模型能夠探索 ROUGE 指標中的缺陷,從而獲得高分,但生成的摘要幾乎不可讀:https://web.archive.org/web/20180215132021/https://www.salesforce.com/products/einstein/ai-research/tl-dr-reinforced-model-abstractive-summarization/ 編碼模型學習更改單元測試以透過編碼問題:https://arxiv.org/abs/2406.10162 編碼模型可以學習直接修改用於計算獎勵的程式碼:https://arxiv.org/abs/2406.10162
社交媒體的推薦演算法旨在提供有用的資訊。然而,有用性通常透過代理指標來衡量,例如點贊或評論的數量,或平臺上的參與時間或頻率。該演算法最終會推薦可能影響使用者情緒狀態的內容,例如離譜和極端的內容,以觸發更多參與度:https://www.goodreads.com/en/book/show/204927599-nexus 針對影片共享網站的錯誤指定代理指標進行最佳化可能會大幅增加使用者的觀看時間,而真正的目標是最佳化使用者的主觀幸福感:https://arxiv.org/abs/2201.03544 「大空頭」——2008 年由房地產泡沫引發的金融危機。當人們試圖玩弄金融體系時,我們社會的 Reward Hacking 攻擊就發生了:https://en.wikipedia.org/wiki/The_Big_Short
迴歸 - 對不完美智慧體的選擇也必然會選擇噪聲。 極值 - 度量選擇將狀態分佈推入不同資料分佈的區域。 因果 - 當智慧體和目標之間存在非因果相關性時,干預它可能無法干預目標。 對抗 - 智慧體的最佳化激勵對手將他們的目標與智慧體相關聯。
部分觀察到的狀態和目標不能完美地表示環境狀態。 系統本身很複雜,容易受到 hacking;例如,如果允許智慧體執行更改部分環境的程式碼,則利用環境機制會變得容易得多。 獎勵可能涉及難以學習或描述的抽象概念。例如,具有高維輸入的獎勵函式可能不成比例地依賴於幾個維度。 RL 的目標是使獎勵函式高度最佳化,因此存在內在的「衝突」,使得設計良好的 RL 目標具有挑戰性。一種特殊情況是具有自我強化反饋元件的獎勵函式,其中獎勵可能會被放大和扭曲到破壞原始意圖的程度,例如廣告投放演算法導致贏家獲得所有。
表徵 - 一組獎勵函式在某些算術運算(例如重新擴充套件)下在行為上不變 實驗 -π‘ 觀察到的行為不足以區分兩個或多個獎勵函式,這些獎勵函式都合理化了智慧體的行為(行為在兩者下都是最佳的)
模型大小:模型更大,代理獎勵也會增大,但真實獎勵會降低。 動作空間解析度:如果提升動作的精度,智慧體的能力也會變強。但是,解析度更高會導致代理獎勵不變的同時真實獎勵下降。 觀察保真度:更準確的觀察會提高代理獎勵,但會略微降低真實獎勵。 訓練步數:在獎勵呈正相關的初始階段之後,用更多步數最佳化代理獎勵會損害真實獎勵。
與 RM 相比,較大的策略從最佳化中獲得的好處較少(即初始獎勵和峰值獎勵之間的差異小於較小策略的差異),但過度最佳化也較少。 更多的 RM 資料會讓 gold 獎勵分數更高並減少「Goodharting」。(注:古德哈特定律(Goodhart's law)的大意是:一項指標一旦變成了目標,它將不再是個好指標。) KL 懲罰對 gold 分數的影響類似於早停(early stopping)。請注意,除了這個實驗之外,在所有實驗中,PPO 中的 KL 懲罰都設定為 0,因為他們觀察到使用 KL 懲罰必定會增大代理 - gold 獎勵差距。
在長問答任務中:模型會建立更有說服力的捏造證據,為錯誤答案使用更一致的邏輯,生成帶有微妙謬誤的連貫一致答案。 在編碼任務中:模型會破解人類編寫的單元測試,生成可讀性較差的測試(例如,輔助函式更少,程式碼複雜度更高),使 π_rlhf 不太可能生成人類可以利用的易檢測錯誤。
多重證據校準(MEC):要求評估者模型提供評估證據,即用文字解釋其判斷,然後輸出兩個候選人的分數。k=3 比 k=1 效果更好,但隨著 k 的增加,超過 3 時,效能就不會有太大改善。 平衡位置校準(BPC):對不同響應順序的結果進行彙總,得出最終得分。 人在迴路校準(HITLC):在面對困難的樣本時,人類評分員將使用基於多樣性的指標 BPDE(平衡位置多樣性熵)參與其中。首先,將得分對(包括交換位置對)對映為三個標籤(勝、平、負),然後計算這三個標籤的熵。BPDE 越高,表明模型的評估決策越混亂,說明樣本的判斷難度越大。然後選擇熵值最高的前 β 個樣本進行人工輔助。
對抗性獎勵函式。我們將獎勵函式視為一個自適應的智慧體本身,它可以適應模型發現的獎勵高但人類評分低的新技巧。 模型前瞻。可以根據未來預期的狀態給予獎勵;例如,如果智慧體將要替換獎勵函式,它將獲得負面獎勵。 對抗性致盲。我們可以用某些變數使模型「失明」,從而讓智慧體無法學習到使其能夠黑掉獎勵函式的資訊。 謹慎工程。透過謹慎的工程設計,可以避免一些針對系統設計的 reward hacking;例如,將智慧體沙箱化,將其行為與其獎勵訊號隔離。 獎勵封頂。這種策略就是簡單地限制可能的最大獎勵,因為它可以有效防止智慧體透過 hacking 獲取超高回報策略的罕見事件。 反例抵抗。對抗魯棒性的提高應該有利於獎勵函式的魯棒性。 多種獎勵的組合。結合不同型別的獎勵可能使其更難被 hacking。 獎勵預訓練。我們可以從一系列 (state, reward) 樣本中學習獎勵函式,但這取決於監督訓練設定的效果如何,它可能帶有其他包袱。RLHF 依賴於此,但學習到的標量獎勵模型非常容易學習到不需要的特質。 Variable indifference。目標是要求智慧體最佳化環境中的一些變數,而不是其他變數。 陷阱。我們可以有意引入一些漏洞,並在任何獎勵被 hacking 時設定監控和警報。 在以人類反饋作為智慧體行為認可的 RL 設定中,Uesato et al. (2020) 提出了用解耦批准(decoupled approval)來防止獎勵篡改。如果反饋是基於 (state, reward) 的,一旦這對資料發生獎勵篡改,我們就無法獲得該行為在該狀態下的未被汙染的反饋。解耦意味著收集反饋的查詢行為是從世界上採取的行為中獨立抽樣的。反饋甚至在行為在世界中執行之前就已收到,從而防止行為損害自己的反饋。
目標特徵:指明確想要學習的值。 Spoiler 特徵:指在訓練過程中無意中學到的非預期值(例如,情感或連貫性等風格性特徵)。這些類似於 OOD 分類工作中的虛假特徵(spurious features)(Geirhos et al. 2020)。