部落格連結:https://www.linkedin.com/pulse/why-rlhf-other-rl-like-methods-dont-bring-true-rl-llmsand-atlas-wang-s1efc/
在環境中採取行動的智慧體。
環境會根據智慧體的行動改變狀態。
智慧體的行動會受到獎勵或懲罰,目的是在多個步驟中實現長期累積獎勵的最大化。
監督微調(SFT):首先在高質量資料上訓練或微調基礎語言模型。
獎勵模型訓練:收整合對的輸出結果,詢問人類更喜歡哪一個,然後訓練一個「獎勵模型」,以接近人類的判斷。
策略最佳化:使用類似強化學習的演算法(通常為 PPO,即「近端策略最佳化」)來調整 LLM 的引數,使其產生獎勵模型所喜歡的輸出結果。
單步或幾步最佳化。在 RLHF 中,LLM 會基於給定的提示生成文字,然後獎勵模型會提供一個單一的偏好分數。RLHF 中的「強化」步驟更類似於一步式策略梯度最佳化,以實現人類偏好的輸出,而不是在不斷變化的環境中對狀態和行動進行基於智慧體的全面迴圈。這更像是一種「一勞永逸」的評分,而不是讓一個智慧體隨時間推移探索多步行動,並接收環境反饋。
大多離線或半離線。獎勵模型通常在人類標籤資料上進行離線訓練,然後用於更新 LLM 的策略。LLM 線上調整策略時,並沒有實時探索連續的環境迴圈。
缺乏基於環境的長期(Long-Horizon)目標。經典的 RL 智慧體會追蹤多個狀態下的長期回報。相比之下,基於 RLHF 的 LLM 訓練側重於根據人類偏好調整即時文字輸出。LLM 並沒有在一個動態環境中導航多個時間步驟。
表面約束與真正的內部目標。RLHF 可以有效地影響某些輸出的機率 —— 引導模型遠離不受歡迎的文字。但模型內部並沒有形成產生這些輸出的「願望」或「慾望」;它仍然是一個生成下一個 token 的統計系統。
IRL:在經典表述中,智慧體透過觀察專家在動態環境中的演示來推斷獎勵函式。相比之下,RLHF 通常收集靜態的成對比較(例如,「你更喜歡這兩個模型輸出中的哪一個?」),並訓練一個獎勵模型來模仿人類的偏好。在不斷演化的環境中,沒有擴充套件的多步驟專家軌跡。
RL 中的偏好學習:在當前的深度強化學習中,有一些方法可以從軌跡 rollout 的成對比較中學習獎勵函式(例如,「你更喜歡機器人步行者的哪種步態?」)。然而,這些方法往往存在樣本複雜度高的問題(例如,需要多次詢問人類),因此許多研究論文都採用了在受控任務中模擬人類反應的方法。
為什麼 RLHF 也不是「經典 IRL」:即使 RLHF 在從人類資料中學習偏好模型方面讓人聯想到 IRL,它也不是分析專家行為隨時間變化的經典方案。相反,RLHF 側重於人類對最終或短序列輸出的靜態判斷。因此,RLHF 仍然主要是離線或接近離線的,這進一步限制了它與傳統 IRL 設定的相似性 —— 儘管 Subbarao Kambhampati 也評論說,從成對偏好中學習獎勵函式(已成為(I)RL 文獻的主流)!
因為太貴了!大規模模型的經典 RL 需要一個穩定、互動式的環境,外加大量計算來執行重複的 episode。每個訓練週期的前向傳遞次數對於今天的十億引數 LLM 來說過於昂貴。
缺乏環境定義。文字生成並非天然的「狀態 - 動作轉換」環境。我們可以嘗試將其包裝成類似遊戲的模擬環境,但這樣就必須為多步驟文字互動定義獎勵結構,而這並非易事。
效能已經足夠好了。在許多使用案例中,RLHF 或 DPO(直接偏好最佳化)已經能產生足夠好的對齊效果。實事求是地說,團隊會堅持使用更簡單的離線方法,而不是建立一個複雜的 RL 管道,以巨大的成本換取微不足道的收益。
接收自然語言目標(如「研究 X,然後制定計劃」)。
反覆計劃、推理和提示自己。
評估進展並完善計劃。
簡化的對齊(在某些方面)。由於 LLM 沒有真正追逐個體目標,它們不太可能「繞過」限制或自主計劃非法行為。對齊通常相當於設定正確的提示約束和微調,將其推向可接受的產出。Anthropic 最近的部落格與這一觀點有關(參見《震驚!Claude 偽對齊率竟能高達 78%,Anthropic 137 頁長論文自揭短》)
更難委派開放式任務。如果我們希望 AI 能夠自發地發現新問題,積極收集資源,並堅持數月來解決這些問題,我們就需要一個具有持續內驅力的系統 —— 類似於真正的 RL 智慧體或高階規劃系統。目前的 LLM 無法以這種方式實現真正的自我啟動。
潛在的創新缺失。在豐富的 RL 環境中進行自由探索,可能會產生驚人的發現(如 AlphaZero 在國際象棋或圍棋中的突破)。如果依賴於只有表面反饋的單步文字生成,我們可能會錯過多步獎勵最佳化所帶來的全新策略。
短期最佳化:RLHF 和 DPO 有效地針對即時(一步)反饋進行最佳化。即使反饋函式是透過(從人類標記的資料中)學習獲得的,也不存在長期規劃的持續狀態 - 行動迴圈。
長期最佳化:在經典 RL 中,智慧體會對多個步驟的累積獎勵進行最佳化,形成類似於「目標」的東西。獎勵模型與行動空間相結合,可驅動在動態環境中塑造多步驟行為的策略。
從業者應該意識到這些侷限性,不要高估 LLM 的自主性。
政策制定者和倫理學家應該認識到,LLM 不可能自發地策劃或撒謊來達到隱藏的目的,除非被提示指引去模仿這種行為。
反過來說,如果未來的系統真的結合了具有大規模計算和動態環境的「真正 RL」,我們可能會看到更多類似智慧體的突發行為 —— 這就會引發新的調整和安全問題。
更高的樣本複雜度:一個經常出現的限制因素是,基於偏好的學習可能需要大量的人類 token 比較,尤其是當任務變得越來越複雜時。研究人員通常採用模擬人的判斷來進行 RL 實驗,但這也帶來了新的問題,即這些模擬器如何忠實地模擬真實的人類偏好。
擴充套件到長期任務:許多專家懷疑,短期輸出的成對比較能否直接擴充套件到更復雜的多步驟任務。使用 LLM 進行真正的多步驟 RL 需要一個環境,在這個環境中,模型可以進行探索、獲得中間獎勵並進行迭代 —— 而這在目前是非常昂貴的,也無法大規模廣泛實施。
銜接符號與次符號方法:對於真正的長期偏好(如需要概念或符號理解的任務),純粹的「原始」配對偏好資料可能並不足夠。可能需要某種形式的結構化、符號化反饋(或「通用語言」),才能有效地將人類的細微目標傳達給人工智慧系統。