讓大模型依靠群體的智慧。
論文標題:MODEL SWARMS: COLLABORATIVE SEARCH TO ADAPT LLM EXPERTS VIA SWARM INTELLIGENCE
論文連結:https://arxiv.org/pdf/2410.11163
單一任務:在僅有 200 個例項的最佳化上,MODEL SWARMS 在涵蓋知識、推理和安全性的 9 個資料集上超越了 12 個模型組合基線,平均提高了 13.3%。
多工領域:聯合最佳化醫療、法律、科學和文化領域的多個任務,MODEL SWARMS 經常比單獨最佳化單個任務產生更優的帕累託專家。
獎勵模型:在最佳化一般和衝突偏好的獎勵模型分數時,MODEL SWARMS 提供了可控性更高的專家,與基線相比在可控性上提高了高達 14.6%。
人類興趣:在人類評估的 16 個主題(例如,電動汽車和博士申請)上,MODEL SWARMS 在 85% 的情況下產生了與現有模型相當或更好的專家。
步驟 0. 初始化
步驟 1. 速度更新
步驟 2. 權重更新
步驟 3. 迭代結束
每個 LLM 專家,或者 MODEL SWARMS 中的「粒子」,都有一個由模型權重表徵的位置;
每個粒子都有一個速度、模型權重空間中應該朝下一個粒子移動的方向;
個體最佳 p_i :基於效用函式 f 在其搜尋歷史中找到的 x_i 的最佳位置;
全域性最佳和最差 g 和 g_w:所有的搜尋歷史中最佳 / 最差位置。