LLM超越人類時該如何對齊?谷歌用新RLHF框架解決了這個問題

机器之心發表於2024-11-05
讓 LLM 在自我進化時也能保持對齊。

我們這個世界是不斷變化的開放世界。人工智慧要在這個世界長久立足,就需要突破許多限制,包括可用資料和規模和質量以及有用新資訊的增長率。

對基於 LLM 的 AI 來說,高質量的人類資料非常關鍵,但已有研究預計這些高質量資料將在未來幾年耗盡。
圖片如果 LLM 保持現在的發展勢頭,預計在 2028 年(中位數)左右,已有的資料儲量將被全部利用完,來自論文《Will we run out of data? Limits of LLM scaling based on human-generated data》

此後,這類資料的質量也將停滯不前:隨著 LLM 能力越來越強,它們將能解決越來越複雜和越來越多的難題,而這些難題所需的訓練資料已經超出了人類的能力。

因此,我們就需要為 LLM 構建一種能使其實現自我提升的基本機制,讓模型可以持續地自我生成和自我求解更困難的問題。

於是,問題就來了:語言模型能否自我建立可學習的新任務,從而實現自我改進以更好地泛化用於人類偏好對齊?

為了提升語言模型的對齊能力,人們已經提出了許多偏好最佳化演算法,但它們都預設使用固定的提示詞訓練分佈。這種固定的訓練正規化缺乏可擴充套件性,並不可避免地導致泛化問題和效率問題。

基於這些考慮,谷歌 DeepMind 和芝加哥大學一個研究團隊開發了一種可擴充套件的開放式 RLHF 框架 eva,即 Evolving Alignment via Asymmetric Self-Play,也就是「透過非對稱自博弈實現的演進式對齊」
圖片
  • 論文標題:Evolving Alignment via Asymmetric Self-Play

  • 論文地址:https://arxiv.org/pdf/2411.00062

eva 能讓自我提升式語言模型的訓練分佈自動演進,如圖 1 所示。
圖片
eva 的核心方法

在介紹 eva 的核心方法之前,我們需要先了解一些前提設定,這裡截圖如下:
圖片
概述地講,eva 可透過一個建立器(creator)將經典 RLHF 擴充套件成開放式 RLHF,該建立器使用易於實現的估計、取樣、進化程式來調整提示詞的分佈,模仿不對稱自博弈的最小最大遺憾(minimax-regret)策略。
圖片
圖片
原理:用於聯合自我提升的開放式 RLHF

直觀說明

經典 RLHF 是在一個靜態提示詞分佈上執行最佳化,這意味著智慧體僅與固定的參考點對齊,這使得它難以對應不斷變化的現實世界中的新問題。

新提出的開放式 RLHF 框架 eva 則打破了這個靜態設定,其目標是開發出一種能很好地泛化到未曾見過的新環境的智慧體。為此,該團隊必須設計一個新的目標,而不僅僅是在一個固定資料集上執行最佳化。

形式化描述

π_φ (x) 是可最佳化的提示詞生成策略,其會與響應策略 π_θ (y | x) 一起被聯合最佳化,如下所示:
圖片
其中,p_ref (x) 表示所有可能任務(透過提示詞例項化)的理想化的可能很難處理的機率,其可作為智慧體可能遇到的任務的全部多樣性和複雜性的概念參考,同時用作對齊的指導目標。此外,聯合最佳化可確保任務分配和智慧體的響應策略同步更新,從而適應日益複雜的任務,進而促進泛化。

機制:透過建立器和求解器博弈實現非對稱自博弈

直觀說明

由於未指定的參考很難處理以及聯合微分存在不穩定問題,因此 (7) 式很難直接最佳化。為此,該團隊提出了一種交替式的最佳化方案,其做法是將該問題表述成一個非對稱的建立器 - 求解器博弈。
  • 直觀地講,建立器可以透過複雜度不斷增加的提示詞例程來指導求解器,從而實現高效和一般性的學習,以處理現實任務的多樣性。

  • 從數學上看,這類似於透過期望最大化進行的 RL 最佳化,其中提示詞分佈的 φ 在每個步驟中都是固定的。

形式化描述

該團隊將這種交替最佳化表述成了一種非對稱博弈,如下所示:
  • 建立器(Creator:提示詞博弈者 π_X,其作用是策略性地為求解器生成提示詞。

  • 求解器(Solver:響應博弈者 π_{Y|X}(或 π),其作用是學習生成更符合偏好的響應。

該團隊採用了 minimax regret 策略,其中求解器的目標是最小化後悔值,而建立器則是為了最大化這個值,即當前策略和最優策略之間的獎勵之差為:
圖片
在納什均衡下,之前已有研究表明:
圖片
然而,如果無法獲得真正的最優策略,就必須近似後悔值。利用隨機策略和獎勵訊號,該團隊設計了基於優勢的代理函式:
圖片
總之,eva 允許建立一個不斷演進的提示詞分佈,其難度會隨智慧體的演進而逐步提升。新引入的 minimax regret 可進一步增加這種不斷髮展的例程的穩健性,其做法是激勵智慧體在所有情況下都表現良好。他們使用了資訊量代理來指導學習。

總之,eva 是將對齊視為一種非對稱博弈,其機制是建立器不斷挑戰求解器,而求解器則不斷學習提升。

實際的演算法

下面說明如何實際實現演算法 1 中的 eva。

1. 建立器步驟:估計,取樣,然後演進

顯然,建立器會找到最有用的提示詞並生成它們的變體,並將這些變體用於偏好最佳化。建立器的實現分為 3 步。
  • 第 1 步:info (・)—— 估計資訊量。對於提示集 X) t 中的每個 x,生成響應、註釋獎勵並透過 (10) 式估計 x 的資訊量指標。

  • 第 2 步:sample (・)—— 對富含資訊的子集進行加權取樣。使用資訊量指標作為權重,對富含資訊的提示詞子集 X^info_t 進行取樣,以便稍後執行演進。

  • 第 3 步:evolve (・)—— 為高優勢提示詞執行近端區域演進。具體來說,迭代 X^info_t 中的每個提示詞,讓它們各自都演化為多個變體,然後(可選)將新生成的提示詞與對 X_t 的均勻取樣的快取混合以建立 X′_t。

2. 求解器步驟:求解然後最佳化

此步驟是經典的偏好最佳化,其中生成響應並執行梯度下降。以逐點獎勵模型設定為例,對於每個提示,取樣 n 個響應,每個響應都帶有獎勵註釋;這裡採用最大和最小獎勵的響應來構建偏好對,然後進行最佳化。

總之,eva 可以使用新的建立器模組統一現有的迭代最佳化工作流程,該模組可以與求解器策略共享相同的網路,也可獨立執行。

實驗結果

這裡我們僅關注實驗的主要結果,實驗設定請參看原論文。

總體而言,eva 在對齊方面取得了顯著的進步,同時無需依賴任何人工資料,因此更具效率。圖片是基礎設定,即一次迭代微調後的模型,eva 則會在此基礎上新增一個建立器,以實現初始迭代的提示詞集的自我演進,並使用一個偏好最佳化演算法進行額外的開放式 RLHF 迭代,這會得到圖片
圖片
eva 能實現自我提升

如表 1 紅色標記所示,eva 在不同最佳化演算法中的表現顯著優於基礎設定,尤其是在更難的 Arena-Hard 基準上,該基準由於其提示詞的複雜性和更公平的評分系統而被認為更具挑戰性。

具體來說,eva 使用 SimPO 作為求解器時增益為 8.4%,使用 DPO 作為求解器時增益為 8.5%,超越了其 27B 版本並與 Arena-Hard 排行榜上報告的 claude-3-opus-240229 相當,同時還使用了全自動的提示詞生成進行對齊。
圖片
eva 可以超越人工編寫的提示詞

實驗進一步表明,使用 eva 提示詞訓練的模型圖片的表現能夠比肩甚至超越那些使用了來自 UltraFeedback 的額外新提示詞訓練的模型圖片,這可被視為是人類提示詞。同時,前者還能做到成本更低,速度更快。

此外,在 MT-Bench 上,使用新的人類提示詞進行訓練通常會在第一輪中表現出效能下降,在第二輪中也只會有適度的提升。相比之下,eva 能顯著提高第二輪的表現。

針對此現象,該團隊給出了自己的假設:eva 可演化出全新的可學習的提示詞,並且其中包含第二輪問題的特徵,這表明 eva 湧現出了處理後續互動等新技能。

消融研究

為了驗證 eva 各元件的有效性,該團隊也執行了消融研究,下面我們簡單給出其發現,詳細實驗過程請訪問原論文:
  • 資訊量指標:新提出的基於後悔值的指標優於其它替代指標;

  • 取樣之後執行演化的流程:新方法優於貪婪選擇方法;

  • 使用獎勵模型進行擴充套件:eva 的對齊增益會隨獎勵模型而擴充套件;

  • 持續訓練:新提出的方法可透過增量訓練獲得單調增益;eva 演化得到的資料和排程可用作隱式正則化器,從而實現更好的區域性最小值。

相關文章