老婆餅裡沒有老婆,RLHF裡也沒有真正的RL

机器之心發表於2025-01-08
老婆餅裡沒有老婆,夫妻肺片裡沒有夫妻,RLHF 裡也沒有真正的 RL。在最近的一篇部落格中,德克薩斯大學奧斯汀分校助理教授 Atlas Wang 分享了這樣一個觀點。
圖片
  • 部落格連結:https://www.linkedin.com/pulse/why-rlhf-other-rl-like-methods-dont-bring-true-rl-llmsand-atlas-wang-s1efc/

他指出,RLHF(基於人類反饋的強化學習)和其他類似的方法並沒有為大型語言模型(LLM)帶來真正的強化學習(RL),因為它們缺乏 RL 的核心特徵:持續的環境互動和長期目標的追求。

RLHF 主要透過單步或幾步最佳化來調整模型輸出,使其符合人類偏好,而不是在一個動態環境中進行多步驟的策略調整。此外,RLHF 通常是離線或半離線進行的,缺乏實時的環境反饋和策略更新。因此,儘管 RLHF 可以改善模型的對齊性和輸出質量,但它並不能賦予 LLM 真正的目標或意圖,讓它們「想要」贏得遊戲。LLM 仍然主要是一個基於上下文預測下一個 token 的統計系統。

整篇文章討論了幾個有趣的問題:

1. RLHF (及相關方法)與經典 RL 有何不同?
2. 為什麼這些方法實際上無法給出 LLM 真實目標或意圖?
3. 為什麼沒有人大規模地為 LLM 做「真正的 RL」?
4. 現有的最接近給 LLM 一個「目標」的方法是什麼?
5. 沒有「目標驅動」的 LLM 的後果是什麼?

透過了解這些細微差別,我們可以清楚地知道 LLM 能做什麼、不能做什麼,以及為什麼。

谷歌 DeepMind 首席科學家 Denny Zhou 轉發該文章時評價說,「對於任何有 RL 知識背景的人來說,(文章中的觀點)是顯而易見的。但對於新人來說,這是一份很好的介紹。」
圖片
區分 RLHF 和經典強化學習

什麼是經典強化學習?在經典強化學習設定中,你有:
  • 在環境中採取行動的智慧體。

  • 環境會根據智慧體的行動改變狀態。

  • 智慧體的行動會受到獎勵或懲罰,目的是在多個步驟中實現長期累積獎勵的最大化。

主要特徵:持續或偶發互動。智慧體探索多種狀態、做出決策、觀察獎勵,並在一個連續的迴圈中調整其策略。

RLHF 是一種使用根據人類偏好資料訓練的獎勵模型來完善模型輸出的工作流。常見流程包括:
  • 監督微調(SFT):首先在高質量資料上訓練或微調基礎語言模型。

  • 獎勵模型訓練:收整合對的輸出結果,詢問人類更喜歡哪一個,然後訓練一個「獎勵模型」,以接近人類的判斷。

  • 策略最佳化:使用類似強化學習的演算法(通常為 PPO,即「近端策略最佳化」)來調整 LLM 的引數,使其產生獎勵模型所喜歡的輸出結果。

與傳統 RL 不同的是,RLHF 中的「環境」基本上是一個單步文字生成過程和一個靜態獎勵模型 —— 這其中沒有擴充套件迴圈或持續變化的狀態。

為什麼 RLHF(及相關方法)不是真正的 RL?
  • 單步或幾步最佳化。在 RLHF 中,LLM 會基於給定的提示生成文字,然後獎勵模型會提供一個單一的偏好分數。RLHF 中的「強化」步驟更類似於一步式策略梯度最佳化,以實現人類偏好的輸出,而不是在不斷變化的環境中對狀態和行動進行基於智慧體的全面迴圈。這更像是一種「一勞永逸」的評分,而不是讓一個智慧體隨時間推移探索多步行動,並接收環境反饋。

  • 大多離線或半離線。獎勵模型通常在人類標籤資料上進行離線訓練,然後用於更新 LLM 的策略。LLM 線上調整策略時,並沒有實時探索連續的環境迴圈。

  • 缺乏基於環境的長期(Long-Horizon)目標。經典的 RL 智慧體會追蹤多個狀態下的長期回報。相比之下,基於 RLHF 的 LLM 訓練側重於根據人類偏好調整即時文字輸出。LLM 並沒有在一個動態環境中導航多個時間步驟。

  • 表面約束與真正的內部目標。RLHF 可以有效地影響某些輸出的機率 —— 引導模型遠離不受歡迎的文字。但模型內部並沒有形成產生這些輸出的「願望」或「慾望」;它仍然是一個生成下一個 token 的統計系統。

請記住,不管是 RLHF、SFT 還是其他什麼,LLM 都不是為了真正的目標或意圖而訓練的!LLM 的核心是根據給定上下文預測下一個 token。它們的「動機」純粹是最大限度地提高下一個 token 的正確率(由訓練資料和任何後續微調訊號確定)。這個過程並不存在主觀上的願望或意圖。我們常說 AlphaZero「想要」在國際象棋中獲勝,但這只是一種方便的簡單說法。從內部來說,AlphaZero 是在最大化數學獎勵函式 —— 沒有任何感覺上的慾望。同樣,經過 RLHF 調整的 LLM 也在最大化對齊獎勵訊號,而沒有內心的渴望狀態。

RLHF vs. IRL 如何?

亞利桑那州立大學電腦科學教授 Subbarao Kambhampati 指出,「RLHF」有點名不副實,因為它將從人類判斷中學習偏好或獎勵模型(在概念上更接近於逆強化學習,即 IRL)與一步或幾步策略最佳化相結合,而不是經典 RL 中典型的長期迭代互動。
  • IRL:在經典表述中,智慧體透過觀察專家在動態環境中的演示來推斷獎勵函式。相比之下,RLHF 通常收集靜態的成對比較(例如,「你更喜歡這兩個模型輸出中的哪一個?」),並訓練一個獎勵模型來模仿人類的偏好。在不斷演化的環境中,沒有擴充套件的多步驟專家軌跡。

  • RL 中的偏好學習:在當前的深度強化學習中,有一些方法可以從軌跡 rollout 的成對比較中學習獎勵函式(例如,「你更喜歡機器人步行者的哪種步態?」)。然而,這些方法往往存在樣本複雜度高的問題(例如,需要多次詢問人類),因此許多研究論文都採用了在受控任務中模擬人類反應的方法。

  • 為什麼 RLHF 也不是「經典 IRL」:即使 RLHF 在從人類資料中學習偏好模型方面讓人聯想到 IRL,它也不是分析專家行為隨時間變化的經典方案。相反,RLHF 側重於人類對最終或短序列輸出的靜態判斷。因此,RLHF 仍然主要是離線或接近離線的,這進一步限制了它與傳統 IRL 設定的相似性 —— 儘管 Subbarao Kambhampati 也評論說,從成對偏好中學習獎勵函式(已成為(I)RL 文獻的主流)!

CoT、PRM 或多智慧體工作流有助於解決這個問題嗎?

基於流程的獎勵模型和思維鏈

基於流程的獎勵模型可能會對中間推理步驟(思維鏈或 CoT)提供反饋,而不是僅根據最終輸出(如問題的最終答案)提供獎勵。這樣做的目的是鼓勵模型以更易於解釋、正確率更高或更符合特定標準的方式解釋或展示其推理過程。

這就是「真正的 RL」嗎?並非如此。

即使你為中間步驟分配了部分獎勵(比如 CoT 解釋),你仍然處於這樣一種環境中:你通常會將整個輸出(包括推理)輸入獎勵模型,獲得獎勵,然後進行一步策略最佳化。而不是在一個動態環境中,由 LLM「嘗試」部分推理步驟、獲得反饋、進行調整,並在同一 episode 中繼續進行開放式迴圈。

因此,雖然 CoT / PRM 會給人一種多步驟 RL 的錯覺,因為你會對中間步驟進行獎勵或懲罰,但實際上,它仍然相當於對單一步驟(文字生成和推理)進行離線或近似離線的策略調整,而不是經典 RL 的持續智慧體 - 環境迴圈。

多智慧體工作流也不會神奇地建立意圖

你可以在工作流中協調多個 LLM(例如,「系統 A 生成計劃,系統 B 批改計劃,系統 C 完善計劃」),但從內部來看,每個 LLM 仍然是根據下一個 token 的機率生成文字。儘管這樣的多智慧體設定可以表現出看起來協調或有目的的湧現行為,但它並沒有賦予任何單個模型內在或秉持的目標。

為什麼我們的多智慧體 LLM 工作流常常看起來有意圖?人類會自然而然地將心理狀態投射到行為看似有目的的系統上,這就是所謂的「意圖立場」。但是,每個 LLM 智慧體只是對提示做出響應。每個智慧體背後的思維鏈並不等同於個人慾望或驅動力;它只是一個多步驟反饋迴路中更復雜的 prompt-completion。

因此,多智慧體協調可以產生非常有趣的新興任務解決能力,但 LLM 本身仍然不會產生「我想要這個結果」的動機。

為什麼至今還沒有人用「真正的 RL」訓練 LLM?
  • 因為太貴了!大規模模型的經典 RL 需要一個穩定、互動式的環境,外加大量計算來執行重複的 episode。每個訓練週期的前向傳遞次數對於今天的十億引數 LLM 來說過於昂貴。

  • 缺乏環境定義。文字生成並非天然的「狀態 - 動作轉換」環境。我們可以嘗試將其包裝成類似遊戲的模擬環境,但這樣就必須為多步驟文字互動定義獎勵結構,而這並非易事。

  • 效能已經足夠好了。在許多使用案例中,RLHF 或 DPO(直接偏好最佳化)已經能產生足夠好的對齊效果。實事求是地說,團隊會堅持使用更簡單的離線方法,而不是建立一個複雜的 RL 管道,以巨大的成本換取微不足道的收益。

最接近給 LLM 一個「目標」的現有方法是什麼?

在我看來,與「給 LLM 一個目標」最接近的方法是使用提示工程或將多個 LLM 提示串聯成一個迴圈來構建一個元系統或「智慧體」。像 Auto-GPT 或 BabyAGI 這樣的工具試圖模擬一個智慧體,它能:
  • 接收自然語言目標(如「研究 X,然後制定計劃」)。

  • 反覆計劃、推理和提示自己。

  • 評估進展並完善計劃。

然而,所有這些「目標保持」都是在系統層面,在提示或連結邏輯中協調進行的,而不是從 LLM 的內部動機狀態出發。LLM 本身仍然是被動地對提示做出反應,缺乏內在的慾望。

多智慧體是另一種「窮人的解決方案」。正如在上文所討論的,你可以協調多個 LLM 對彼此的輸出結果進行評論或驗證,從而有效地劃分子任務並組合出部分解決方案。這看起來是有目標的,但同樣,「目標」是由工作流和提示從外部協調的;LLM 不會自發生成或堅持自己的目標。

LLM 沒有「真正目標」的後果
  • 簡化的對齊(在某些方面)。由於 LLM 沒有真正追逐個體目標,它們不太可能「繞過」限制或自主計劃非法行為。對齊通常相當於設定正確的提示約束和微調,將其推向可接受的產出。Anthropic 最近的部落格與這一觀點有關(參見《震驚!Claude 偽對齊率竟能高達 78%,Anthropic 137 頁長論文自揭短》)

  • 更難委派開放式任務。如果我們希望 AI 能夠自發地發現新問題,積極收集資源,並堅持數月來解決這些問題,我們就需要一個具有持續內驅力的系統 —— 類似於真正的 RL 智慧體或高階規劃系統。目前的 LLM 無法以這種方式實現真正的自我啟動。

  • 潛在的創新缺失。在豐富的 RL 環境中進行自由探索,可能會產生驚人的發現(如 AlphaZero 在國際象棋或圍棋中的突破)。如果依賴於只有表面反饋的單步文字生成,我們可能會錯過多步獎勵最佳化所帶來的全新策略。

不過,這也有積極的一面。例如,我認為沒有持續目標的 LLM 在某些方面更加透明。它本質上是一個由即時反饋訊號引導的強大的下一個 token 預測器 —— 沒有多步驟 RL 迴圈中出現的複雜的隱藏目標。

明確時間跨度、目標、獎勵和行動空間

單步或幾步方法(如 RLHF 或 DPO)與「真正的」RL 的關鍵區別在於時間跨度:
  • 短期最佳化:RLHF 和 DPO 有效地針對即時(一步)反饋進行最佳化。即使反饋函式是透過(從人類標記的資料中)學習獲得的,也不存在長期規劃的持續狀態 - 行動迴圈。

  • 長期最佳化:在經典 RL 中,智慧體會對多個步驟的累積獎勵進行最佳化,形成類似於「目標」的東西。獎勵模型與行動空間相結合,可驅動在動態環境中塑造多步驟行為的策略。

此外,RL 通常假定有一個定義明確的行動空間(例如,將遊戲棋子向上 / 向下 / 向左 / 向右移動)。而在 LLM 微調中,「動作」的概念是模糊的,通常會被直接引數更新或生成 token 所取代。增強提示,甚至只是從固定詞彙中生成 token,都可以被視為「動作」,而「環境」則是 LLM 的內部狀態。然而,這是對 RL 迴圈的非標準或某種不尋常的重新解釋。

另一個專家澄清的問題是 RL 中獎勵和目標之間的區別。原則上,RL「獎勵」是指導智慧體學習過程的訊號,而不總是明確的最終目標。如果獎勵稀少(僅在成功 episode 結束時提供),智慧體的實際「目標」可能看起來是「達到成功條件」。然而,在實踐中,好的 RL 設計通常會使用密集的獎勵訊號來引導中間狀態,從而幫助智慧體更有效地學習。

對於 LLM 而言,「目標」的概念意味著對某些目標的持續、多步驟的追求。由於 RLHF 通常是在單步或幾步過程中進行的,因此該模型從未真正形成長期目標的內部表徵。它只是根據獎勵模型或偏好函式來最佳化即時文字輸出。

後記

RLHF、DPO、憲法 AI(Constitutional AI)和其他受 RL 啟發的微調方法對於使 LLM 更加一致和有用大有裨益。它們讓我們能夠利用人類的偏好來塑造輸出,減少有毒內容,並引導 LLM 響應的風格。

然而,這些技術並不能為 LLM 提供真正的長期目標、內部動機或經典 RL 意義上的「意圖」。LLM 仍然是一個複雜的下一個 token 預測器,而不是一個自主智慧體。

如果未來我們希望 LLM 擁有真正的 RL 怎麼辦?如果有一天,研究人員將 LLM 整合到實際的多步驟 RL 框架中(想想看:一個智慧體在模擬或現實世界中導航,不斷閱讀和生成文字,接收反饋,並實時調整策略),那麼我們就可能接近真正的智慧體行為。這需要大量的資源、精心的環境設計和強大的安全措施。在此之前,我們所擁有的系統 —— 儘管功能強大 —— 從根本上說仍然是被動的、由離線或半離線反饋訊號形成的下一個 token 預測器。

為什麼這一切都很重要?
  • 從業者應該意識到這些侷限性,不要高估 LLM 的自主性。

  • 政策制定者和倫理學家應該認識到,LLM 不可能自發地策劃或撒謊來達到隱藏的目的,除非被提示指引去模仿這種行為。

  • 反過來說,如果未來的系統真的結合了具有大規模計算和動態環境的「真正 RL」,我們可能會看到更多類似智慧體的突發行為 —— 這就會引發新的調整和安全問題。

未來方向?
  • 更高的樣本複雜度:一個經常出現的限制因素是,基於偏好的學習可能需要大量的人類 token 比較,尤其是當任務變得越來越複雜時。研究人員通常採用模擬人的判斷來進行 RL 實驗,但這也帶來了新的問題,即這些模擬器如何忠實地模擬真實的人類偏好。

  • 擴充套件到長期任務:許多專家懷疑,短期輸出的成對比較能否直接擴充套件到更復雜的多步驟任務。使用 LLM 進行真正的多步驟 RL 需要一個環境,在這個環境中,模型可以進行探索、獲得中間獎勵並進行迭代 —— 而這在目前是非常昂貴的,也無法大規模廣泛實施。

  • 銜接符號與次符號方法:對於真正的長期偏好(如需要概念或符號理解的任務),純粹的「原始」配對偏好資料可能並不足夠。可能需要某種形式的結構化、符號化反饋(或「通用語言」),才能有效地將人類的細微目標傳達給人工智慧系統。

最後,雖然 RLHF、DPO 和相關方法提供了一種實用的方法,可以在短期環境中使 LLM 與人類偏好保持一致,但它們無法賦予 LLM 真正、持久的目標或意圖。這些方法也只是與經典的 RL 或 IRL 正規化略有對應。未來的系統若能在真正的多步驟 RL 迴圈中使用 LLM,就能解鎖更多自主的、類似智慧體的行為,但同時也會引發新的安全和一致性問題。

原文連結:https://www.linkedin.com/pulse/why-rlhf-other-rl-like-methods-dont-bring-true-rl-llmsand-atlas-wang-s1efc/

相關文章