去年 8 月,兩位著名的前谷歌研究人員 David Ha、Llion Jones 宣佈創立一家人工智慧公司 Sakana AI,總部位於日本東京。其中,Llion Jones 是谷歌 2017 年經典研究論文《Attention is all you need》的第五作者,該論文提出了深度學習架構 transformer。transformer 對整個機器學習領域產生了重要影響,並且是 ChatGPT 等生成式 AI 模型的基礎。
論文於 2017 年 6 月首次發表後,隨著全球對生成人工智慧人才競爭不斷升溫,論文作者陸續離開谷歌,自立門戶創業。Llion Jones 是八位作者中最後一個退出谷歌的人。
David Ha、Llion Jones 成立的初創公司 Sakana AI 致力於構建生成式 AI 模型。最近,Sakana AI 宣佈推出一種通用方法 ——Evolutionary Model Merge。該方法使用進化演算法來有效地發現組合不同開源模型的最佳方法,這些開源模型具有不同功能。Evolutionary Model Merge 方法能夠自動建立具有使用者指定功能的新基礎模型。
為了測試其方法的有效性,研究團隊用 Evolutionary Model Merge 方法演化出能夠進行數學推理的日語大語言模型(LLM)和日語視覺語言模型(VLM)。實驗結果表明這兩個模型在沒有經過明確最佳化的情況下,在多個 LLM 和視覺基準上都取得了 SOTA 結果。
特別是,其中進行數學推理的日語 LLM 是一個 7B 引數模型,它在大量日語 LLM 基準上取得了頂級效能,甚至超過了一些 SOTA 70B 引數 LLM。
最終,研究團隊應用 Evolutionary Model Merge 方法演化出 3 個強大的基礎模型:
1. 大語言模型(EvoLLM-JP)
2. 視覺語言模型(EvoVLM-JP)
3. 影像生成模型(EvoSDXL-JP)
值得注意的是,Evolutionary Model Merge 方法能夠自動生成新的基礎模型,而不需要任何基於梯度的訓練,因此需要相對較少的計算資源。
Sakana AI 團隊認為:受自然選擇啟發的進化演算法可以解鎖有效的開源方法合併解決方案,以探索廣闊的可能性空間,發現傳統方法和人類直覺可能錯過的新穎且不直觀的組合。
技術詳解
技術報告介紹了 Evolutionary Model Merge 這種通用進化方法。
報告地址:https://arxiv.org/pdf/2403.13187.pdf
本文的目標是建立一個統一的框架,能夠從選定的基礎模型中自動生成合並模型,以確保該合併模型的效能超過集合中任何個體的效能,方法的核心是進化演算法。研究者首先將合併過程剖析成兩個不同的、正交的配置空間,並分析它們各自的影響。基於此分析,他們隨後引入了一個無縫整合這些空間的內聚框架。圖 1 為示意圖。
Evolutionary Model Merge 結合了:(1)合併資料流空間(Data Flow Space)中的模型,以及(2)合併引數空間(權重)中的模型。
資料流空間:是透過進化來發現不同模型各層的最佳組合以形成新模型。下面是這種方法的一個示例:引數空間:第二種方法是開發混合多個模型權重的新方法,混合不同模型的權重以形成新的模型。下面影片為兩種不同模型混合權重的過程說明:
資料流空間和引數空間這兩種方法也可以結合在一起來開發新的基礎模型:
該研究希望透過進化的方法來幫助找到更好的模型合併方法,透過實驗,研究者證明了該方法能夠建立具有以前不存在的、新的、具有新興組合功能的新模型。實驗中,研究者使用這種自動化方法生成了兩個新模型:一個日語數學 LLM 和一個支援日語的 VLM,它們都是使用這種方法演化而來的。
具有 SOTA 效能的基礎模型
該研究提出了三種模型:大型語言模型(EvoLLM-JP)、視覺語言模型(EvoVLM-JP)以及影像生成模型(EvoSDXL-JP)。
EvoLLM-JP
EvoLLM-JP 是一個可以用日語解決數學問題的 LLM。為了構建這樣的模型,該研究使用進化演算法來合併日語 LLM(Shisa-Gamma)和特定於數學的 LLM(WizardMath 和 Abel)。
實驗過程中,研究者允許模型不斷的進化迭代,最終模型採用的是在 100-150 次的進化中表現最好的模型。研究者在 MGSM 資料集上進行了評估,以下是評估結果:該表格比較了不同 LLM 用日語解決數學問題的表現,MGSM-JA 列顯示正確答案的百分比。模型 1-3 為原始模型,模型 4-6 為最佳化後的合併模型。模型 7-10 是用於比較的 LLM 得分。
上表為進化後的 LLM 結果。其中模型 4 在引數空間中進行了最佳化,模型 6 使用模型 4 在資料流空間中進行了進一步最佳化。這些模型的正確響應率明顯高於三個源模型的正確響應率。
不過研究者表示根據以往的經驗,手動將日語 LLM 與數學 LLM 結合起來非常困難。但經過迭代努力,進化演算法能夠有效地找到一種將日語 LLM 與數學 LLM 結合起來的方法,成功地構建了一個兼具日語和數學能力的模型。
除了數學能力外,研究者還評估了模型的日語能力。令人驚訝的是,該研究發現這些模型在一些與數學無關的任務上也取得了高分。值得注意的是,模型並沒有經過特定最佳化,但實際效果還不錯。
LLM 日語整體能力比較,其中 Avg 欄是 9 個任務得分的平均值,數值越高,代表 LLM 日語整體能力越高。
EvoVLM-JP
該研究發現,進化演算法還可以進化成不同架構的模型。他們透過應用進化模型合併生成了一個日語視覺語言模型 (VLM)。
在構建日語 VLM 時,該研究使用了流行的開源 VLM (LLaVa-1.6-Mistral-7B) 和功能強大的日語 LLM (Shisa Gamma 7B v1)。研究者表示,這是合併 VLM 和 LLM 的第一次努力,其證明了進化演算法可以在合併模型中發揮重要作用。以下是評估結果。
VLM 效能比較。
上表中,JA-VG-VQA-500 和 JA-VLM-Bench-In-the-Wild 都是關於影像問答的基準。分數越高,表示用日語回答的答案越準確。
以下為模型在回答有關影像問題的示例展示。兩種基線模型經常給出錯誤的答案,而 EvoVLM-JP 給出正確的答案。
例如使用者詢問交通訊號燈現在是什麼顏色時,通常來講,正確答案是綠色,但是在日語習慣中,都會說成藍色。可以看出 EvoVLM-JP 比較貼合日語習慣。
EvoSDXL-JP
該研究發現,進化也可以自動發現合併不同擴散模型的方法。
EvoSDXL-JP 根據提示生成圖片。
參考連結:
https://sakana.ai/evolutionary-model-merge/