讓 LLM 在自我進化時也能保持對齊。
論文標題:Evolving Alignment via Asymmetric Self-Play
論文地址:https://arxiv.org/pdf/2411.00062
直觀地講,建立器可以透過複雜度不斷增加的提示詞例程來指導求解器,從而實現高效和一般性的學習,以處理現實任務的多樣性。
從數學上看,這類似於透過期望最大化進行的 RL 最佳化,其中提示詞分佈的 φ 在每個步驟中都是固定的。
建立器(Creator:提示詞博弈者 π_X,其作用是策略性地為求解器生成提示詞。
求解器(Solver:響應博弈者 π_{Y|X}(或 π),其作用是學習生成更符合偏好的響應。
第 1 步:info (・)—— 估計資訊量。對於提示集 X) t 中的每個 x,生成響應、註釋獎勵並透過 (10) 式估計 x 的資訊量指標。
第 2 步:sample (・)—— 對富含資訊的子集進行加權取樣。使用資訊量指標作為權重,對富含資訊的提示詞子集 X^info_t 進行取樣,以便稍後執行演進。
第 3 步:evolve (・)—— 為高優勢提示詞執行近端區域演進。具體來說,迭代 X^info_t 中的每個提示詞,讓它們各自都演化為多個變體,然後(可選)將新生成的提示詞與對 X_t 的均勻取樣的快取混合以建立 X′_t。
資訊量指標:新提出的基於後悔值的指標優於其它替代指標;
取樣之後執行演化的流程:新方法優於貪婪選擇方法;
使用獎勵模型進行擴充套件:eva 的對齊增益會隨獎勵模型而擴充套件;
持續訓練:新提出的方法可透過增量訓練獲得單調增益;eva 演化得到的資料和排程可用作隱式正則化器,從而實現更好的區域性最小值。