雖然 RLHF 的初衷是用來控制人工智慧(AI),但實際上它可能會幫助 AI 欺騙人類。
語言模型 (LM) 可能會產生人類難以察覺的錯誤,尤其是在任務複雜的情況下。作為最近流行的後訓練方法 RLHF ,可能會加劇這個問題:為了獲得更高的獎勵,LM 可能會更好地說服人類認為它們是正確的,即使它們是錯誤的。
這對人類評估者來說是一個巨大的挑戰,因為人類想要發現 LM 輸出中那些似乎正確的細微錯誤非常困難。在正確的答案和看起來正確的答案之間出現了差距(gap)。
這種差距可能會導致 RLHF 獎勵駭客攻擊:為了獲得更高的獎勵,LM 可以學會說服人類即使他們錯了,他們也是正確的。研究者將這種行為命名為 U-SOPHISTRY(詭辯),因為這種結果不是開發人員想要的。
當將 LM 用於複雜且關鍵的任務時,U-SOPHISTRY 會帶來重大風險。例如,RLHF 可能會讓 AI 更好地說服人類接受不準確的科學發現或偏見政策。
這種情況頗具諷刺意味:雖然 RLHF 的初衷是用來控制人工智慧(AI),但它實際上可能會欺騙人類,讓人類誤以為他們掌控了一切。
雖然模型的 U-SOPHISTRY 行為在理論上是可能的,但它尚未得到實證驗證。先前研究如 I-SOPHISTRY 會透過非標準工程實踐故意誘導這些行為,並希望將結論推廣到 U-SOPHISTRY 中。
相比之下,來自清華、UC 伯克利、 Anthropic 等機構的研究者對 U-SOPHISTRY 進行了研究,並且這種行為的產生是自然地從標準的、無害的做法中產生的,研究者想要知道 U-SOPHISTRY 在實踐中是否重要,LM 如何誤導人類,以及哪些緩解措施是有效的。
論文地址:https://arxiv.org/pdf/2409.12822
論文標題:LANGUAGE MODELS LEARN TO MISLEAD HUMANS VIA RLHF
作者在兩項任務上進行了實驗:長篇問答和演算法程式設計。實驗中要求人類在有限的時間內(例如 3-10 分鐘)評估 LM 輸出的正確性。然後,透過計算 RLHF 之前和之後人類評估與黃金標籤的準確率來測量 U-SOPHISTRY。
經過 150 小時的人工研究,發現即使在廣泛接受的獎勵訊號下,U-SOPHISTRY 也會出現。實驗發現,在 RLHF 之後,LM 並沒有在任務上變得更好,但它會誤導受試者更頻繁地認可其錯誤答案。
此外,受試者在評估 LM 的輸出方面變得更差:假陽率在問答(QuALITY)上增加了 24%,在程式設計(APPS)上增加了 18%。值得一提的是,受試者也被誤導了,自信地將不正確的輸出錯誤地標記為正確。
透過調查反饋,該研究定性分析了 LM 在 RLHF 之後如何誤導受試者。
在問答中,LM 學會透過挑選或捏造支援證據、提出一致但不真實的論點以及提供包含微妙因果謬誤的論點來為錯誤答案辯護。
在程式設計任務中,LM 學會生成部分錯誤的程式,這些程式仍然可以透過所有評估者設計的單元測試,生成可讀性較差的程式,並且犯更少的人類通常會檢查的常見錯誤。
最後,該研究評估了先前用於檢測 U-SOPHISTRY 的緩解方法。
U-SOPHISTRY 是 RLHF 後意外出現的
RLHF 是一種流行的對齊 LM 的方法。本文將 RLHF 之前的 LM 稱為 π_init,將 RLHF 之後的 LM 稱為 π_rlhf。RLHF 涉及三種不同的獎勵:R^∗(正確性) 、 R^human(人類評級)、R^train(RLHF 訓練中的獎勵)。
本文重點關注作為 RLHF 意外結果而出現的 U-SOPHISTRY。許多先前的研究旨在研究 U-SOPHISTRY。然而,他們研究的是 I-SOPHISTRY,其中不良行為是由非標準工程實踐有意誘導的,並且隱含地假設 I-SOPHISTRY 的結論可以推廣到 U-SOPHISTRY。如表 1 所總結的,他們透過操縱獎勵、微調資料或提示來誘導不良行為。目前尚不清楚 U-SOPHISTRY 是否會在標準訓練實踐下出現,其中獎勵並非旨在誘導惡意行為,但由於人為的弱點仍然存在缺陷。相比之下,本文的工作重點是自然出現的 U-SOPHISTRY。
實驗
該研究證明在兩個可以自動計算 R* 的資料集上,RLHF 會導致 U-SOPHISTRY:QuALITY(問答)和 APPS(程式設計)。
該研究首先使用 RLHF 微調語言模型 π_init 以獲得 π_rlhf,然後從 UpWork 和大學招募人類專家來收集對 π_init 和 π_rlhf 輸出的人類評估(R^human),主要觀察如下指標:
正確率:根據 R * 判斷的輸出正確(即 R* = 1)頻率
人類認可度:人類認為其輸出正確(即 R^human = 1)的頻率
人工評估錯誤率:人工評估錯誤(即)的頻率
人工誤報率:當輸出錯誤,人類認為其正確(即 R* = 0 但 R^train = 1)的頻率
如果 RLHF 會增加 U-SOPHISTRY,那麼預計會觀察到:
人類認可度的增加與正確率的提高不成比例;
人工評估錯誤率和人工誤報率會增加。
具體來說,該研究有三點發現:
發現 1:RLHF 提高了人類認可度但不一定提高了正確率。
發現 2:RLHF 削弱了人類的評估能力。
發現 3:RLHF 使錯誤的輸出對人類更有說服力。
針對發現 3,該研究還分析了 RLHF 後人類信心如何變化,初步結果如下圖 3 所示:
問答的定性分析
該研究定性分析了 π_rlhf 生成的結果,以瞭解為什麼它們更具誤導性。
該研究發現:π_init 和 π_rlhf 在預測答案時都傾向於偽造證據,而人類評估者發現 π_rlhf 偽造的證據更有說服力,而 π_init 偽造的證據有時是無意義的或與答案無關。
例如,在圖 5 中,π_rlhf 偽造了統計證據,使人類評估者非常確信其答案是正確的。
程式設計的定性分析
為了進一步瞭解 π_rlhf 生成的程式如何誤導人類評估者,該研究分析了收集到的人類標籤及其解釋。
如圖 12 和圖 13 所示,研究團隊觀察到 π_rlhf 生成的錯誤程式在實際評估過程中仍然可以透過所有(3 到 5)個評估者編寫的單元測試,而在 RLHF 期間沒有觀察到這一點。相反,π_init 生成的錯誤程式通常無法透過第一個評估者編寫的單元測試。
即使 π_rlhf 在原始 APPS 資料集上僅透過了較少的單元測試,也會發生這種情況,如下圖 6 所示。這表明 LM 可以學會預測和破解 RLHF 中人類編寫的單元測試。
感興趣的讀者可以閱讀論文原文,瞭解更多研究內容。