1000多個智慧體組成，AI社會模擬器MATRIX-Gen助力大模型自我進化

机器之心發表於2024-11-14

原文網址 : https://www.jiqizhixin.com/articles/2024-11-14-3

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報導了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯絡報導。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文作者來自於上海交通大學人工智慧學院的Multi-Agent Governance & Intelligence Crew (MAGIC團隊)和牛津大學。共同第一作者有唐鑠、龐祥鶴、劉澤希和唐博瀚。指導老師包括上海交大的王延峰教授、陳思衡副教授，以及牛津大學的董曉文副教授。

隨著大語言模型（LLMs）在處理複雜任務中的廣泛應用，高質量資料的獲取變得尤為關鍵。為了確保模型能夠準確理解並執行使用者指令，模型必須依賴大量真實且多樣化的資料進行後訓練。然而，獲取此類資料往往伴隨著高昂的成本和資料稀缺性。因此，如何有效生成能夠反映現實需求的高質量合成資料，成為了當前亟需解決的核心挑戰。

那麼，真實資料的需求是如何產生的？設想一位程式設計師在進行機器學習模型的開發與調優時，他會提出問題：「如何調整超引數以提高模型預測準確率？」這種指令並非憑空而來，而是源於他所處的具體工作情境 —— 資料分析和模型最佳化。同樣，使用者在日常生活中的指令無論是程式設計任務、醫療診斷還是商業決策，往往與他們所面臨的具體場景密切相關。要生成能夠真實反映使用者需求的合成資料，必須從這些實際情境中出發，模擬出與使用者需求相匹配的場景。

基於這一理念，上海交通大學與牛津大學的研究團隊提出了一項創新方案 —— 基於多智慧體模擬的資料合成。團隊提出了 MATRIX——AI 社會模擬器，構建了一個由 1000 多個 AI 智慧體組成的模擬社會。在這個模擬社會中，每一個 AI 智慧體代表了一個擁有獨立身份和人格的數字人，這些 AI 智慧體可以模擬出複雜的交流和互動模式，涵蓋了從軟體開發到商業活動的廣泛場景。基於這些場景，團隊進一步開發了 MATRIX-Gen 資料合成器，能夠根據不同需求合成高度多樣化且高質量的訓練指令資料。

論文連結：https://arxiv.org/pdf/2410.14251
程式碼主頁：https://github.com/ShuoTang123/MATRIX-Gen

為驗證 MATRIX-Gen 合成資料的高質量，研究團隊使用 Llama-3-8B-Instruct 驅動社會模擬，僅合成了 2 萬條資料用於訓練 Llama-3-8B-Base 模型。儘管資料量極少，訓練後的模型在 AlpacaEval 2 和 Arena-Hard 基準測試中竟然大幅超越了 Llama-3-8B-Instruct 自身。這一結果不僅證明了 MATRIX-Gen 合成資料的高效性，也標誌著模型在合成資料驅動下實現了自我進化。此外，在程式碼生成、多輪對話和安全性任務上，MATRIX-Gen 生成的專用資料同樣表現優異，甚至超越了為這些特定任務設計的專用資料集。這項研究為透過合成資料提升大語言模型效能提供了全新的解決方案，展示了 AI 模擬社會在資料合成中的巨大潛力，為未來大語言模型的後訓練資料合成開闢了創新的路徑。

基於合成資料的後訓練系統

本研究提出的後訓練系統旨在利用基於多智慧體模擬技術構建的 AI 模擬社會，合成高質量的訓練資料，以提升預訓練大語言模型的指令跟隨能力。該系統的核心理念源於人類在現實場景中提問的方式 —— 人們基於自身需求提出多樣且深入的問題。因此，本研究透過 AI 模擬社會合成人類社會中的場景，並利用這些場景引導 LLM 提出資訊豐富、貼近現實的問題，從而產生高質量的訓練資料。

如下圖所示，該系統包含三個步驟：

1. 合成社會場景：利用多智慧體模擬技術構建 AI 模擬社會，該社會中的每個場景由一組 AI 智慧體及其對應的文字行動構成。為了確保社會場景的真實性和多樣性，本研究設計了大規模人類社會模擬器 MATRIX，建立了一個包含各種 AI 智慧體的互動環境。此模擬器充分發揮了 LLM 的角色扮演能力，使得 AI 智慧體能夠逼真地模擬人類行為，進行規劃、觀察和行動，進而生成豐富且高度真實的社會場景。

2. 合成訓練資料：根據合成的社會場景，生成符合任務需求的後訓練資料。本研究設計了場景驅動的指令生成器 MATRIX-Gen，模擬人類在日常生活中提出問題的過程，結合場景生成指令，確保更高的真實性；透過選擇特定場景，能夠合成符合任務需求的資料，具備可控性。這一步驟合成包括 SFT、DPO 以及各種專用資料集。

3. 模型微調：利用合成的 SFT 資料集，對預訓練模型進行監督微調，以獲得具備指令跟隨能力的模型。隨後，基於合成的偏好資料集，採用 DPO 進一步訓練模型。

AI 社會模擬器 MATRIX

為了合成多樣且豐富的場景，以助力資料的合成，本研究提出了人類社會模擬器 MATRIX。該模擬器的輸入為若干 AI 智慧體檔案，輸出為文字形式的場景。透過模擬人類的 AI 智慧體和結構化的通訊機制，MATRIX 實現了大規模的人類社會模擬，從而生成多樣且真實的場景。

模擬人類的智慧體：每個 AI 智慧體根據匿名化的真實人類檔案進行初始化，並由 LLM 生成其個性和人生目標。這些目標進一步分解為可執行的步驟，形成 AI 智慧體的行動計劃。例如，一個醫學教授的生活目標可能包括傳播科學知識，而其計劃則包括進行研究、發表論文、進行講座和組織教育專案。這些步驟指導 AI 智慧體未來的行動，確保它們朝著目標努力並展現出有目的的行為。當出現新觀察時，AI 智慧體會根據其記憶和個性做出反應；在沒有新觀察的情況下，它們則遵循既定計劃追求目標。

結構化的通訊機制：受人類社會中同質性現象的啟發，我們根據相似特徵對 AI 智慧體進行分組，以減少不必要的連線，從而提高模擬的可擴充套件性。在每組中，本研究引入一個集中調節器來管理組內和組間的溝通。這一設計促進了相似 AI 智慧體之間的更多互動，同時仍允許長距離交流，豐富資訊流並增強真實性。此外，這種結構化通訊機制能夠防止 AI 智慧體接收到過多無關資訊，確保模擬的有效性。

資料合成器 MATRIX-Gen

在合成了真實多樣化的社會場景後，本研究設計了場景驅動的指令生成器 MATRIX-Gen，以滿足特定任務需求併合成後訓練資料。透過選擇與使用者需求相關的場景，MATRIX-Gen 能夠生成符合人類意圖的指令，從而確保合成指令的真實性和可控性。

如下圖所示，在合成後訓練資料的過程中，MATRIX-Gen 模擬了人類提問的過程。針對不同資料場景的需求（如通用任務或程式碼任務），MATRIX-Gen 結合每個 AI 智慧體的個性和行動，將這些資訊整合到指令生成提示中，模擬人類在日常生活中提出問題的方式。隨後，基於上述指令生成提示，MATRIX-Gen 直接呼叫對齊的 LLM 生成合成指令及其對應的回答。

下圖展示了一位 IT 經理在汽車資料分析場景下，提出「如何調整超引數以提高模型預測準確率」的例子：

透過這一方法，本研究能夠合成三種型別的資料集，包括監督微調資料集 MATRIX-Gen-SFT、偏好調優資料集 MATRIX-Gen-DPO，以及特定領域的 SFT 資料。每種資料集的指令生成在複雜性和專業性上各具特點，確保滿足不同場景下的需求。

效能表現

在實驗中，本研究選擇 Llama-3-8B-Instruct 作為資料合成模型，選擇 Llama-3-8B 作為訓練的模型，透過模型的訓練效果評估 MATRIX-Gen 在通用任務、多輪對話、程式碼生成上的資料合成能力。

AlpacaEval 2 和 Arena-Hard 上的評估結果表明，透過多智慧體模擬合成的 MATRIX-Gen-SFT 資料優於多個真實資料集以及合成資料集。

在 MATRIX-SFT 模型上 DPO 的訓練結果表明，透過 MATRIX-Gen-DPO 訓練的模型超越多種合成偏好資料訓練的模型，以及 Llama-3-8B-Instruct。值得注意的是，MATRIX-Gen-DPO 訓練後的模型總共僅使用了 2 萬條合成資料，便實現了對 Llama-3-8B-Instruct 自身的超越，充分展示了其高質量和自我進化的能力。

在程式碼生成與安全輸出的任務中，MATRIX-Gen 合成的資料集均超越了對應領域的專用資料集，顯示出 MATRIX-Gen 在合成資料上的高可控性。

上圖展示了 MATRIX-Gen-SFT 合成指令的視覺化，顯示出合成資料的多樣性。

總結與展望

本研究提出了一種基於 AI 智慧體社會模擬的後訓練資料合成框架。依託 MATRIX 合成的 AI 模擬社會，MATRIX-Gen 能夠可控地合成高質量的多樣資料。在通用和專用任務中，僅使用 0.2% 的資料，即可獲得優於大模型研發領軍團隊 Meta AI 所用資料集的模型訓練效果，突顯了 MATRIX-Gen 在資料合成中的優勢。

本研究希望該資料合成框架能夠幫助定量研究何種型別的資料更適合用於監督微調和偏好最佳化，深入探討不同資料特性對模型效能的影響。此外，我們展望透過引入更強大的 AI 智慧體，如具備工具呼叫能力的 AI 智慧體，以及接入更豐富的環境，進一步合成更復雜的資料，從而提升大語言模型在複雜任務中的表現。

清華團隊構建大型社會模擬器AgentSociety，推動智慧社會治理與研究正規化變革
2025-02-19
AI版“模擬人生”，你想不到他們的社會關係有多“亂”
2023-04-20
AI
AI 大戰 AI，一個深度強化學習多智慧體競賽系統
2023-03-08
AI強化學習智慧體
智慧體模擬《西部世界》一樣的社會，復旦大學等出了篇系統綜述
2024-12-06
智慧體
整合長期記憶，AI實現自我進化，探索大模型這一可能性
2024-10-28
AI大模型
多模態大模型
2024-09-01
大模型
達觀打造基於AI能力的社會治理平臺，助力政府管理智慧化升級
2022-01-06
AI
多 AI 智慧體系統- AI 智慧體的 6 個關鍵要素
2024-05-27
AI智慧體
大語言模型能用作世界模擬器嗎?
2024-06-16
模型
推動大模型自我進化，北理工推出「流星雨計劃」
2024-12-05
大模型
[AI]大模型穩定角色扮演形成“自我認知”
2023-12-07
AI大模型
大眾傳播、流行品味與組織化社會行為
2024-10-26
Android模組化與元件化–多模組區分編譯
2019-03-04
Android元件化編譯
人工智慧大腦模擬
2018-10-30
人工智慧
行業首創！巨人網路釋出多智慧體大模型AI原生遊戲玩法
2024-08-02
行業智慧體大模型AI遊戲
搭建人工智慧多模態大語言模型的通用方法
2024-12-08
人工智慧模型
Profinet遠端IO模組：模擬量模組_軟體組態說明
2024-07-23
SCoRe: 透過強化學習教導大語言模型進行自我糾錯
2024-10-03
強化學習模型
上百萬智慧體在OASIS模擬平臺上玩推特，AI玩社交媒體和真人有多像？
2024-11-29
智慧體AI
Vuex 進階——模組化組織 Vuex
2019-04-20
Vue
松鼠Ai全新多模態智適應大模型釋出會重磅召開，智適應教育軟硬體全面升級
2024-06-19
AI大模型
開啟智慧座艙AI時代，蔚來NOMI GPT端雲多模態大模型正式上線
2024-04-12
AIGPT大模型
浪潮AI微模組資料中心助力信鋼公司數字化轉型
2022-04-06
AI
一個可以自我進化的微服務框架
2020-06-28
微服務框架
Django 的自我進化
2020-12-25
Django
世界AI大會馬化騰縱論人工智慧
2019-08-31
AI人工智慧
為視覺語言多模態模型進行偏好最佳化
2024-07-16
視覺模型
模擬5億年的進化資訊，首個同時推理蛋白質序列、結構和功能的生物學大模型
2024-06-26
大模型
客服RPA機器人助力客服行業向智慧化邁進
2020-01-17
機器人行業
# [AI]多模態聚類能力助力AI完成自主意識測試
2023-12-06
AI聚類
Spring AI（使用Ollama大模型進行AI驗證）
2024-07-19
SpringAI大模型
影片生成模型變身智慧體：史丹佛Percy Liang等提出VideoAgent，竟能自我最佳化
2024-10-20
模型智慧體IDE
NOIP2024模擬11:忠於自我
2024-06-10
谷歌 AI 負責人談2020 年機器學習趨勢：多工和多模態會有大突破
2019-12-16
谷歌AI機器學習
國內首個自研MoE多模態大模型，揭秘騰訊混元多模態理解
2024-08-22
大模型
多模態大模型工作梳理（施工中....）
2024-03-14
大模型
基於大模型的智慧體徹底顛覆AI應用
2024-01-25
大模型智慧體AI
AI中臺助力企業智慧化轉型
2020-06-28
AI

1000多個智慧體組成，AI社會模擬器MATRIX-Gen助力大模型自我進化

相關文章