本文作者來自於上海交通大學人工智慧學院的Multi-Agent Governance & Intelligence Crew (MAGIC團隊)和牛津大學。共同第一作者有唐鑠、龐祥鶴、劉澤希和唐博瀚。指導老師包括上海交大的王延峰教授、陳思衡副教授,以及牛津大學的董曉文副教授。 隨著大語言模型(LLMs)在處理複雜任務中的廣泛應用,高質量資料的獲取變得尤為關鍵。為了確保模型能夠準確理解並執行使用者指令,模型必須依賴大量真實且多樣化的資料進行後訓練。然而,獲取此類資料往往伴隨著高昂的成本和資料稀缺性。因此,如何有效生成能夠反映現實需求的高質量合成資料,成為了當前亟需解決的核心挑戰。 那麼,真實資料的需求是如何產生的?設想一位程式設計師在進行機器學習模型的開發與調優時,他會提出問題:「如何調整超引數以提高模型預測準確率?」 這種指令並非憑空而來,而是源於他所處的具體工作情境 —— 資料分析和模型最佳化。同樣,使用者在日常生活中的指令無論是程式設計任務、醫療診斷還是商業決策,往往與他們所面臨的具體場景密切相關。要生成能夠真實反映使用者需求的合成資料,必須從這些實際情境中出發,模擬出與使用者需求相匹配的場景。 基於這一理念,上海交通大學與牛津大學的研究團隊提出了一項創新方案 —— 基於多智慧體模擬的資料合成。團隊提出了 MATRIX——AI 社會模擬器,構建了一個由 1000 多個 AI 智慧體組成的模擬社會。在這個模擬社會中,每一個 AI 智慧體代表了一個擁有獨立身份和人格的數字人,這些 AI 智慧體可以模擬出複雜的交流和互動模式,涵蓋了從軟體開發到商業活動的廣泛場景。基於這些場景,團隊進一步開發了 MATRIX-Gen 資料合成器,能夠根據不同需求合成高度多樣化且高質量的訓練指令資料。
論文連結:https://arxiv.org/pdf/2410.14251
程式碼主頁:https://github.com/ShuoTang123/MATRIX-Gen
為驗證 MATRIX-Gen 合成資料的高質量,研究團隊使用 Llama-3-8B-Instruct 驅動社會模擬,僅合成了 2 萬條資料用於訓練 Llama-3-8B-Base 模型。儘管資料量極少,訓練後的模型在 AlpacaEval 2 和 Arena-Hard 基準測試中竟然大幅超越了 Llama-3-8B-Instruct 自身。這一結果不僅證明了 MATRIX-Gen 合成資料的高效性,也標誌著模型在合成資料驅動下實現了自我進化。此外,在程式碼生成、多輪對話和安全性任務上,MATRIX-Gen 生成的專用資料同樣表現優異,甚至超越了為這些特定任務設計的專用資料集。這項研究為透過合成資料提升大語言模型效能提供了全新的解決方案,展示了 AI 模擬社會在資料合成中的巨大潛力,為未來大語言模型的後訓練資料合成開闢了創新的路徑。 基於合成資料的後訓練系統 本研究提出的後訓練系統旨在利用基於多智慧體模擬技術構建的 AI 模擬社會,合成高質量的訓練資料,以提升預訓練大語言模型的指令跟隨能力。該系統的核心理念源於人類在現實場景中提問的方式 —— 人們基於自身需求提出多樣且深入的問題。因此,本研究透過 AI 模擬社會合成人類社會中的場景,並利用這些場景引導 LLM 提出資訊豐富、貼近現實的問題,從而產生高質量的訓練資料。 如下圖所示,該系統包含三個步驟:1. 合成社會場景:利用多智慧體模擬技術構建 AI 模擬社會,該社會中的每個場景由一組 AI 智慧體及其對應的文字行動構成。為了確保社會場景的真實性和多樣性,本研究設計了大規模人類社會模擬器 MATRIX,建立了一個包含各種 AI 智慧體的互動環境。此模擬器充分發揮了 LLM 的角色扮演能力,使得 AI 智慧體能夠逼真地模擬人類行為,進行規劃、觀察和行動,進而生成豐富且高度真實的社會場景。 2. 合成訓練資料:根據合成的社會場景,生成符合任務需求的後訓練資料。本研究設計了場景驅動的指令生成器 MATRIX-Gen,模擬人類在日常生活中提出問題的過程,結合場景生成指令,確保更高的真實性;透過選擇特定場景,能夠合成符合任務需求的資料,具備可控性。這一步驟合成包括 SFT、DPO 以及各種專用資料集。 3. 模型微調:利用合成的 SFT 資料集,對預訓練模型進行監督微調,以獲得具備指令跟隨能力的模型。隨後,基於合成的偏好資料集,採用 DPO 進一步訓練模型。 AI 社會模擬器 MATRIX 為了合成多樣且豐富的場景,以助力資料的合成,本研究提出了人類社會模擬器 MATRIX。該模擬器的輸入為若干 AI 智慧體檔案,輸出為文字形式的場景。透過模擬人類的 AI 智慧體和結構化的通訊機制,MATRIX 實現了大規模的人類社會模擬,從而生成多樣且真實的場景。
模擬人類的智慧體:每個 AI 智慧體根據匿名化的真實人類檔案進行初始化,並由 LLM 生成其個性和人生目標。這些目標進一步分解為可執行的步驟,形成 AI 智慧體的行動計劃。例如,一個醫學教授的生活目標可能包括傳播科學知識,而其計劃則包括進行研究、發表論文、進行講座和組織教育專案。這些步驟指導 AI 智慧體未來的行動,確保它們朝著目標努力並展現出有目的的行為。當出現新觀察時,AI 智慧體會根據其記憶和個性做出反應;在沒有新觀察的情況下,它們則遵循既定計劃追求目標。
結構化的通訊機制:受人類社會中同質性現象的啟發,我們根據相似特徵對 AI 智慧體進行分組,以減少不必要的連線,從而提高模擬的可擴充套件性。在每組中,本研究引入一個集中調節器來管理組內和組間的溝通。這一設計促進了相似 AI 智慧體之間的更多互動,同時仍允許長距離交流,豐富資訊流並增強真實性。此外,這種結構化通訊機制能夠防止 AI 智慧體接收到過多無關資訊,確保模擬的有效性。
資料合成器 MATRIX-Gen 在合成了真實多樣化的社會場景後,本研究設計了場景驅動的指令生成器 MATRIX-Gen,以滿足特定任務需求併合成後訓練資料。透過選擇與使用者需求相關的場景,MATRIX-Gen 能夠生成符合人類意圖的指令,從而確保合成指令的真實性和可控性。 如下圖所示,在合成後訓練資料的過程中,MATRIX-Gen 模擬了人類提問的過程。針對不同資料場景的需求(如通用任務或程式碼任務),MATRIX-Gen 結合每個 AI 智慧體的個性和行動,將這些資訊整合到指令生成提示中,模擬人類在日常生活中提出問題的方式。隨後,基於上述指令生成提示,MATRIX-Gen 直接呼叫對齊的 LLM 生成合成指令及其對應的回答。下圖展示了一位 IT 經理在汽車資料分析場景下,提出「如何調整超引數以提高模型預測準確率」的例子:透過這一方法,本研究能夠合成三種型別的資料集,包括監督微調資料集 MATRIX-Gen-SFT、偏好調優資料集 MATRIX-Gen-DPO,以及特定領域的 SFT 資料。每種資料集的指令生成在複雜性和專業性上各具特點,確保滿足不同場景下的需求。 效能表現 在實驗中,本研究選擇 Llama-3-8B-Instruct 作為資料合成模型,選擇 Llama-3-8B 作為訓練的模型,透過模型的訓練效果評估 MATRIX-Gen 在通用任務、多輪對話、程式碼生成上的資料合成能力。AlpacaEval 2 和 Arena-Hard 上的評估結果表明,透過多智慧體模擬合成的 MATRIX-Gen-SFT 資料優於多個真實資料集以及合成資料集。在 MATRIX-SFT 模型上 DPO 的訓練結果表明,透過 MATRIX-Gen-DPO 訓練的模型超越多種合成偏好資料訓練的模型,以及 Llama-3-8B-Instruct。值得注意的是,MATRIX-Gen-DPO 訓練後的模型總共僅使用了 2 萬條合成資料,便實現了對 Llama-3-8B-Instruct 自身的超越,充分展示了其高質量和自我進化的能力。在程式碼生成與安全輸出的任務中,MATRIX-Gen 合成的資料集均超越了對應領域的專用資料集,顯示出 MATRIX-Gen 在合成資料上的高可控性。上圖展示了 MATRIX-Gen-SFT 合成指令的視覺化,顯示出合成資料的多樣性。 總結與展望 本研究提出了一種基於 AI 智慧體社會模擬的後訓練資料合成框架。依託 MATRIX 合成的 AI 模擬社會,MATRIX-Gen 能夠可控地合成高質量的多樣資料。在通用和專用任務中,僅使用 0.2% 的資料,即可獲得優於大模型研發領軍團隊 Meta AI 所用資料集的模型訓練效果,突顯了 MATRIX-Gen 在資料合成中的優勢。 本研究希望該資料合成框架能夠幫助定量研究何種型別的資料更適合用於監督微調和偏好最佳化,深入探討不同資料特性對模型效能的影響。此外,我們展望透過引入更強大的 AI 智慧體,如具備工具呼叫能力的 AI 智慧體,以及接入更豐富的環境,進一步合成更復雜的資料,從而提升大語言模型在複雜任務中的表現。