蟻群、蜂群的智慧,大模型也可以有,谷歌等機構群體智慧研究亮相

机器之心發表於2024-10-23
讓大模型依靠群體的智慧。

在我們的自然界,螞蟻、蜜蜂、蝗蟲都是非常簡單的生物,單獨行動的它們也非常脆弱。但一旦它們組成群體,就會湧現出遠超個體簡單相加的力量,比如幾隻螞蟻湊到一起可以往洞穴搬運食物,一群蜜蜂可以建造精密的蜂巢。這種群居性生物表現出來的智慧行為被稱為群體智慧。
圖片
從宏觀上說,人類社會的不斷髮展和演化也是一種群體智慧現象。因此,電腦科學家們就想到,為什麼不在人工智慧的研究中借鑑這種思路呢?說不定,這能比 OpenAI 等公司所追求的「超級智慧個體」更接近 AGI 呢?

隨著大模型變得越來越聰明,越來越多的研究團隊開始挖掘這一方向的潛力,比如機器之心前段時間報導的國內創業公司 RockAI(參見《與其造神,不如依靠群體的力量:這家公司走出了一條不同於 OpenAI 的 AGI 路線》)。

最近,來自谷歌、華盛頓大學的研究團隊也公佈了一項研究,讓「群體智慧」走入了更多 AI 研究者的視野。
圖片
  • 論文標題:MODEL SWARMS: COLLABORATIVE SEARCH TO ADAPT LLM EXPERTS VIA SWARM INTELLIGENCE

  • 論文連結:https://arxiv.org/pdf/2410.11163

在這篇論文中,作者提出了一種協同搜尋演算法 ——MODEL SWARMS,該演算法透過群體智慧來適應和最佳化大型語言模型(LLM)。具體來說,MODEL SWARMS 從一組 LLM 專家和一個效用函式開始。在跨模型找到的最佳檢查點的引導下,多樣化的 LLM 專家透過協作在權重空間中移動,並最佳化表示模型適應目標的效用函式。

與現有的模型組合方法相比,MODEL SWARMS 提供了無需微調的模型適應,可以在資料量低至 200 個樣本的情況下工作,並且不需要對群體中的特定專家或它們應該如何組合做出假設。

大量實驗表明,MODEL SWARMS 可以靈活地使 LLM 專家適應單一任務、多工領域、獎勵模型以及不同的人類興趣,在不同任務和上下文中,它將超過 12 個模型組合基線提高了 21.0%。

論文概覽

除了努力訓練一個單一的、通用的大型語言模型(LLM),在所有語言和任務中共享引數之外,最近的工作越來越多地認識到透過多 LLM 協作的模組化的重要性,其中不同的模型以各種方式相互作用和互補。例如,混合專家(MoE)依賴於將查詢路由到各種神經子元件,利用一個模型的專門知識。路由到特定領域的專家這種方法顯示了巨大的潛力,但在 MoE 過程中沒有產生新的模型 / 專家。然而,具有挑戰性的現實世界任務通常需要靈活的組合和適應新的領域的能力,超出了現有專家的範圍。

有兩種研究工作旨在將多 LLM 合作擴充套件到路由之外,以組成和產生新的適應模型:
1、Learn-to-fuse 設計可訓練的元件,將專家「粘合」在一起,形成一個合併的模型,然後使用監督目標對模型進行微調,以產生組合專家。這些方法通常依賴於大型訓練集從頭開始微調可學習部分,並且很難提供無縫新增 / 移除專家的模組化。

2、Model arithmetic(模型算術)透過對模型權重和 / 或 token 機率進行算術運算來組合 LLM 專家。這些方法通常對可用專家和期望的適應應該如何分解有強烈的假設(例如,lion indoors = lion outdoors + (dog indoors - dog outdoors))。因此,一個不依賴於過多微調資料或對現有模型有強烈假設的靈活方法至關重要,可以讓多樣化的 LLM 專家適用於廣泛的場景。

為了解決這一問題,作者提出了 MODEL SWARMS,在這個框架中,多個 LLM 專家透過協作在權重空間中搜尋新的適應模型。受粒子群最佳化(Particle Swarm Optimization, PSO)的啟發,MODEL SWARMS 將每個 LLM 專家視為一個「粒子」,並將 LLM 適應定義為粒子的協作移動,這種移動由表示適應目標的效用函式指導。
圖片
具體來說,為了建模 LLM 的主動搜尋而不是被動合併,每個專家粒子都以一個位置(模型權重)和速度(權重空間中的方向)開始。速度會受到慣性(保持當前速度的傾向)、個體最佳(給定粒子找到的最佳位置)和全域性最佳 / 最差(所有粒子中找到的最佳 / 最差位置)的迭代影響,而 LLM 粒子隨後朝著更新的速度方向邁出一步。這些速度因素使得 LLM 粒子能夠繪製出獨立的搜尋路徑,並探索個體 / 全域性最佳鄰域。
圖片
圖片
圖片
得益於靈活的搜尋方法,MODEL SWARMS 不需要任何有監督的微調資料或關於 LLM 專家或效用函式的預先存在的知識,僅透過任何 model-to-scalar 效用函式指導的協作搜尋和移動來適應 LLM 專家。

MODEL SWARMS 在四種不同的 LLM 適應目標上實現了卓越的效能:
  • 單一任務:在僅有 200 個例項的最佳化上,MODEL SWARMS 在涵蓋知識、推理和安全性的 9 個資料集上超越了 12 個模型組合基線,平均提高了 13.3%。

  • 多工領域:聯合最佳化醫療、法律、科學和文化領域的多個任務,MODEL SWARMS 經常比單獨最佳化單個任務產生更優的帕累託專家。

  • 獎勵模型:在最佳化一般和衝突偏好的獎勵模型分數時,MODEL SWARMS 提供了可控性更高的專家,與基線相比在可控性上提高了高達 14.6%。

  • 人類興趣:在人類評估的 16 個主題(例如,電動汽車和博士申請)上,MODEL SWARMS 在 85% 的情況下產生了與現有模型相當或更好的專家。

圖片
圖片
實證分析表明,初始專家的多樣性至關重要,模型展現出了在初始檢查點中未見的新能力,而且令人驚訝的是,最終表現最好的粒子通常並不是開始就表現最佳的那個。MODEL SWARMS 可以透過類似 dropout 的策略加速,並可以無縫擴充套件到不同模型架構專家的 token 機率算術。
圖片
圖片
方法

MODEL SWARMS 透過群體智慧來適應 LLM 專家,圖 1 和演算法 1 概述了 MODEL SWARMS。

MODEL SWARMS 主要包括以下 4 個步驟:
  • 步驟 0. 初始化

  • 步驟 1. 速度更新

  • 步驟 2. 權重更新

  • 步驟 3. 迭代結束

圖片
圖片
MODEL SWARMS 假設可以訪問各種 LLM 專家圖片,可以是完整模型或經過微調的 LoRA 介面卡。MODEL SWARMS 還需要一個效用函式 f : x → R,將每個專家對映到一個應針對模型適應進行最佳化的標量值。效用函式可以是資料集效能、獎勵模型分數或人類偏好。

受粒子群最佳化和一般進化演算法(Back & Schwefel,1993)的啟發,MODEL SWARMS 採用了幾個術語:
  • 每個 LLM 專家,或者 MODEL SWARMS 中的「粒子」,都有一個由模型權重表徵的位置;

  • 每個粒子都有一個速度、模型權重空間中應該朝下一個粒子移動的方向;

  • 個體最佳 p_i :基於效用函式 f 在其搜尋歷史中找到的 x_i 的最佳位置;

  • 全域性最佳和最差 g 和 g_w:所有圖片的搜尋歷史中最佳 / 最差位置。

粒子的位置和速度使 LLM 專家能夠主動搜尋而不是被動合併,而個體 / 全域性最佳檢查點有助於跟蹤權重空間中的良好位置和鄰域以進一步探索。

實驗結果

如下表 1 所示,MODEL SWARMS 在所有 9 個單一任務上都實現了 SOTA 效能:
圖片
在多工方面,下表 2 展示了 MODEL SWARMS 跨 8 個任務和 4 個域的測試集效能:
圖片
下表 3 展示了在驗證和測試指令集上的獎勵模型分數:
圖片
在 16 個人類興趣主題上,MODEL SWARMS 前後的 LLM-as-a-judge 分數、事實性分數如下表 4 所示:
圖片
感興趣的讀者可以閱讀論文原文,瞭解更多研究內容。

相關文章