這就是OpenAI神秘的Q*?史丹佛:語言模型就是Q函式

机器之心發表於2024-04-24

還記得去年 11 月底爆出來的 Q* 專案嗎?這是傳說中 OpenAI 正在秘密開展、或將帶來顛覆性變革的 AI 專案。如果你想回憶一下,可參看機器之心當時的報導《全網大討論:引爆 OpenAI 全員亂斗的 Q * 到底是什麼?》簡而言之,Q* 很可能是 Q 強化學習和 A* 搜尋這兩種 AI 方法的結合。

近日,史丹佛大學一個團隊的一項新研究似乎為這一研究方向的潛力提供了佐證,其聲稱現在已經取得非凡成就的「語言模型不是一個獎勵函式,而是一個 Q 函式!」由此發散思維猜想一下,也許 OpenAI 秘密的 Q* 專案或許真的是造就 AGI 的正確方向(或之一)。

圖片

  • 論文標題:From r to Q∗: Your Language Model is Secretly a Q-Function

  • 論文地址:https://arxiv.org/pdf/2404.12358.pdf

在對齊大型語言模型(LLM)與人類意圖方面,最常用的方法必然是根據人類反饋的強化學習(RLHF)。透過學習基於人類標註的比較的獎勵函式,RLHF 能夠捕獲實踐中難以描述的複雜目標。研究者們也在不斷探索使用強化學習技術來開發訓練和取樣模型的新演算法。尤其是直接對齊方案(比如直接偏好最佳化,即 DPO)憑藉其簡潔性收穫了不少擁躉。

直接對齊方法的操作不是學習獎勵函式然後使用強化學習,而是在上下文多臂賭博機設定(bandit setting)中使用獎勵函式與策略之間的關係來同時最佳化這兩者。類似的思想已經被用在了視覺 - 語言模型影像生成模型中。

儘管有人說這樣的直接對齊方法與使用 PPO 等策略梯度演算法的經典 RLHF 方法一樣,但它們之間還是存在根本性差異。

舉個例子,經典 RLHF 方法是使用終點狀態下的稀疏獎勵來最佳化 token 層面的價值函式。另一方面,DPO 則僅在上下文多臂賭博機設定中執行操作,其是將整個響應當成單條臂處理。這是因為,雖然事實上 token 是一次性只生成一個,但研究強化學習的人都知道,密集型獎勵是有益的。

儘管直接對齊演算法頗引人注意,但目前人們還不清楚它們能否像經典強化學習演算法那樣用於序列。

為了搞清楚這一點,史丹佛這個團隊近日開展了一項研究:在大型語言模型中 token 層面的 MDP 設定中,使用二元偏好反饋的常見形式推導了 DPO。

他們的研究表明,DPO 訓練會隱含地學習到一個 token 層面的獎勵函式,其中語言模型 logit 定義最優 Q 函式或預期的總未來獎勵。然後,他們進一步表明 DPO 有能力在 token MDP 內靈活地建模任意可能的密集獎勵函式。

這是什麼意思呢?

簡單來說,該團隊表明可以將 LLM 表示成 Q 函式並且研究表明 DPO 可以將其與隱式的人類獎勵對齊(根據貝爾曼方程),即在軌跡上的 DPO 損失。

圖片

並且他們證明這種表示可以擬合任何在軌跡上的反饋獎勵,包括稀疏訊號(如智慧體應用)。

實驗

他們也進行了實驗,論證了三個可能對 AI 社群有用的實用見解。

第一,他們的研究表明儘管 DPO 是作為上下文多臂賭博機而派生出來的,但 DPO 模型的隱含獎勵可在每個 token 層面上進行解釋。

在實驗中,他們以定性方式評估了 DPO 訓練的模型是否能夠根據軌跡反饋學習 credit assignment。有一個代表性示例是商討工作就職的場景,圖 1 給出了兩個答案。

圖片

其中左邊是正確的基礎摘要,右邊是經過修改的版本 —— 有更高層的職位和相應更高的工資。他們計算了這兩個答案的每個 token 的 DPO 等價的獎勵。圖 1 中的每個 token 標註的顏色就正比於該獎勵。

可以看到,模型能夠成功識別對應於錯誤陳述的 token,同時其它 token 的值依然相差不大,這表明模型可以執行 credit assignment。

此外,還可以看到在第一個錯誤(250K 工資)的上下文中,模型依然為其餘 token 分配了合理的值,並識別出了第二個錯誤(management position)。這也許表明模型具備「縫合(stitching)」能力,即根據離線資料進行組合泛化的能力。該團隊表示,如果事實如此,那麼這一發現將有助於強化學習和 RLHF 在 LLM 中的應用。

第二,研究表明對 DPO 模型進行似然搜尋類似於現在很多研究中在解碼期間搜尋獎勵函式。也就是說,他們證明在 token 層面的闡述方式下,經典的基於搜尋的演算法(比如 MCTS)等價於在 DPO 策略上的基於似然的搜尋。他們的實驗表明,一種簡單的波束搜尋能為基礎 DPO 策略帶來有意義的提升,見圖 2。

圖片

第三,他們確定初始策略和參考分佈的選擇對於確定訓練期間隱性獎勵的軌跡非常重要。

從圖 3 可以看出,當在 DPO 之前執行 SFT 時,被選取和被拒絕的響應的隱含獎勵都會下降,但它們的差距會變大。

圖片

當然,該團隊最後也表示,這些研究結果還需要更大規模的實驗加以檢驗,他們也給出了一些值得探索的方向,包括使用 DPO 讓 LLM 學會基於反饋學習推理、執行多輪對話、充當智慧體、生成影像和影片等。

相關文章