智慧體模擬《西部世界》一樣的社會,復旦大學等出了篇系統綜述

机器之心發表於2024-12-06

圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


引言

傳統社會學研究依賴問卷調查和心理實驗等方法收集資料,儘管真實可靠,但成本高、難以規模化且存在道德風險。近年來,大語言模型(LLMs)憑藉強大的推理和規劃能力,為模擬人類行為提供了新的機遇。透過角色扮演,LLMs 驅動的智慧體能模擬特定情境下的個體反應,成為研究人類行為的有效工具。

與此同時,多智慧體的互動被廣泛用於解決問題和模擬複雜動態。LLMs 可被定製為具備特定知識和技能的智慧體,透過協作實現目標、完成任務;它們的簡單互動也能湧現複雜集體行為,模擬現實中的複雜社會動態。這些模擬為對社會現象的理解與預測提供了新工具,也為政策制定和社會管理提供了支援。
圖片
圖 1:大模型智慧體驅動的社會模擬概覽。本文將現有工作分為個體模擬、場景模擬和社會模擬。從左到右,對個體建模的多樣性和規模逐漸增加,從右到左,對個體建模的精確性需求增加。

目前,這一領域發展迅速,但現有綜述多聚焦於單智慧體的架構、特定能力或多智慧體系統的某些方面,尚缺乏從個體到社會模擬的系統性回顧。因此,本文試圖填補這一空白,為該領域提供全面的概述。考慮到模擬目標以及個體建模在精確性、多樣性和規模上的不同需求,本文將現有工作歸納為三種型別:

  • 個體模擬(Individual Simulation):利用 LLM 智慧體來模擬特定個體或群體,側重於對於單個人的特徵複製,而不涉及多智慧體互動;
  • 場景模擬(Scenario Simulation):在一個集中的場景中組織多個智慧體,由特定的目標或任務驅動,通常集中在特定場景中的小規模智慧體上,研究多智慧體的集體智慧;
  • 社會模擬(Society Simulation):模擬智慧體社會中更復雜多樣的行為,探索現實世界應用中的社會動態,從小範圍對社會理論、假設的驗證,到對大規模的現實社會現象的探索。

這三類模擬呈現出遞進關係:個體模擬為場景模擬和社會模擬奠定基礎,而社會模擬則有潛力構建由無數場景組成的複雜世界。本文依次總結了三類模擬的研究進展,並探討它們的發展趨勢,旨在推動這一領域的進一步發展,同時為跨學科研究提供支援。
圖片
  • 綜述連結:https://arxiv.org/abs/2412.03563
  • 專案地址:https://github.com/FudanDISC/SocialAgent

個體模擬

個體模擬基於模組化的體系結構,利用特定人物或人群的個性化資料,以高保真度為目標模擬這些物件。本文提出了一個系統化的框架來整理和概括個體模擬的相關工作,從整體上系統地分析和指導個體模擬的設計與應用,透過將智慧體的基本架構與個體模擬的特點相結合,這個框架包含:智慧體架構、構建方法、模擬物件和評估方法。
圖片
圖 2: 大模型驅動的智慧體個體模擬示意圖。個體智慧體通常由一個具有概要、記憶、規劃和行動模組的框架組成,以模擬特定目標,如人物個體或人群個體。個體模擬可以透過靜態和互動的方式進行評估,並觀察不同的維度。

智慧體架構

有效地模擬個體需要構建一個能夠準確再現個體特徵的智慧體架構。通常,這種架構被模組化為四個核心元件:概要、記憶、規劃和行動。

  • 概要(Profile):向模型提供被扮演個體的基本資訊特徵,繼而影響其行為。概要涉及個體的年齡、性別、心理學特徵等,主要透過描述和對話的形式呈現,通常包括人工整理和藉助大模型生成兩種方式。
  • 記憶(Memory):儲存並利用已有資訊和感知資訊,確保智慧體行為一致性和連續性。記憶分為短期記憶和長期記憶。記憶的主要操作包括寫入、檢索和反思三種型別。
  • 規劃(Planning):幫助智慧體模擬人類處理問題時的個性化決策過程,使其與模擬個體的思維方式一致。個體模擬的規劃可以分為共情規劃和主觀規劃。
  • 行為(Action):將智慧體的決策轉化為特定的輸出,支撐智慧體與環境互動。行為的環境主要有簡單對話和塑造情景兩類,而行為型別分為開放域行為和封閉域行為。

詳細論述請讀者參閱原論文 Section 3.1,以及表格 1 中對現有代表性工作架構元件的總結。

構建方法

個體模擬旨在將個體資料整合到 LLMs 中,以實現智慧體與個體的對齊,進而模擬個體行為。構建方法分為兩種型別:非引數化提示和引數化訓練。

  • 非引數化提示:直接透過提示詞直接為模型提供個體資料,依靠模型的上下文學習能力來模擬個體。個體描述通常透過系統提示詞輸入到模型中。
  • 引數化訓練:透過更新通用模型的引數來實現個體模擬,主要分為預訓練、微調和強化學習三種方式。預訓練在原始大模型上直接訓練擬合個體相關資料。微調則根據特定任務和情境,調整模型以適應個體模擬需求。強化學習透過在動態環境中最佳化模型,不斷學習個體行為來改進模擬效果。

詳細論述請讀者參閱原論文 Section 3.2,以及表格 1 中對現有代表性工作構建方法的總結。

模擬物件

應用場景和目標的不同會影響模擬物件的尺度和粒度。根據模擬的範圍和細節,模擬物件可分為人群個體和人物個體兩類:

  • 人群個體:指具有相似特徵(如心理特徵或身份特徵)的群體代表。人群模擬通常用於反映群體意見、評估特定群體的偏好和偏見。此類模擬常透過非引數化提示方法實現。
  • 人物個體:指特定的個體,通常是廣泛為人所知的角色。人物模擬中的角色可分為真實角色和虛擬角色,這些角色通常可以獲取相關的高質量資料。

詳細論述請讀者參閱原論文 Section 3.3,以及表格 1 中對現有代表性工作模擬物件的總結。

評估方法

個體模擬的評估方法可以分為靜態評估和互動評估兩類。

  • 靜態評估:透過讓智慧體直接生成輸出進行評估,通常採用簡單的問答、選擇題或採訪形式。靜態評估可分為主觀評估和客觀評估,分別依賴人工或大模型依據主觀標準進行判斷,或使用數學和統計工具基於具體指標進行分析。
  • 互動評估:在互動環境中評估智慧體在與其他智慧體或使用者互動中的模擬能力。互動評估常應用於遊戲表現、任務完成和角色扮演等場景,其關鍵特點包括精心設計的互動環境、實時的外部反饋以及多階段的評估過程。

詳細論述請讀者參閱原論文 Section 3.4

場景模擬

現實世界中,個體不是獨立存在的,而是透過合作完成特定任務。場景模擬將一組智慧體組織在一個具體場景中,由特定目標或任務驅動其行為。場景模擬通常從設計多智慧體系統入手,包括構建環境、建模角色、以及設定組織結構與通訊協議,以便有效管理智慧體之間的互動。
圖片
圖 3:場景模擬示意圖。在給定特定場景的情況下,構建一個多智慧體系統涉及對環境、角色、組織和通訊進行建模。場景模擬完成後,透過不同的評估層次和策略進行評估。

組成要素

隨著場景模擬的日益複雜,構建一個能夠適用於多場景的統一系統框架尤為重要。現有系統的基本形式可以總結為:“透過受限的通訊方式,將智慧體組織起來,在特定環境中扮演角色”。基於這一框架,我們歸納了場景模擬的四個核心要素:環境、角色、組織和通訊

  • 環境(Environment):在場景模擬中,環境定義了智慧體操作與互動的具體背景。就像人類從周圍環境中獲取資訊一樣,智慧體也依賴於環境從不同的來源接收輸入訊號。這些訊號指導著智慧體在系統中的行為與決策。由此,全面理解環境是智慧體決策制定與任務連續性保障的基礎。我們透過聚焦於配置、狀態、歷史和工具這四個關鍵方面對現有研究中的環境進行分析。配置:提供場景相關的基本資訊以便智慧體在明確的目標下進行互動。狀態:包括場景執行過程中環境提供的資訊。歷史:是指隨著場景的執行,過去的狀態和互動逐漸積累成一系列記錄。工具:提供與場景模擬任務相關的專業功能(如 Python 和 SQL),能夠實現更準確和精確的結果。
  • 角色(Role):在場景模擬中,我們根據智慧體的任務和功能為其分配不同的角色。典型設定中有兩類角色:參與者負責執行場景中的任務,而引導者則管理任務執行過程,並提供必要的支援。每個角色都有其獨特的責任,側重於系統操作的不同方面。各角色之間協作,以實現系統的整體目標。參與者:是積極參與任務執行和討論的關鍵成員,他們的組織和溝通是場景模擬中任務完成的核心。引導者:在場景模擬中提供關鍵支援,負責規劃流程、協調溝通和整合結果,例如規劃者、協調者、整合者。
  • 組織 (Organization):有效的任務執行需要精心協調和安排個體智慧體之間的互動。組織框架決定了每個智慧體如何與其他智慧體協作以實現目標。通常,我們可以透過組織模式和組織結構來描述其組織框架。組織模式:決定了智慧體之間的關係在整個模擬過程中的穩定性或動態變化。組織結構:反映了智慧體之間的連線方式。
  • 通訊 (Communication):智慧體之間的通訊控制著資訊的傳遞。為了更好地理解通訊的內部機制,我們從通訊形式和通訊風格兩個方面進行分析。通訊形式:指通訊的協議,主要分為非結構化自然語言和結構化語言。通訊風格:指通訊雙方的立場,通常可分為合作性和競爭性兩種。

詳細論述請讀者參閱原論文 Section 4.1,以及表格 2 中對現有代表性工作組成要素的總結。

場景分類

透過利用具備專業知識的智慧體的集體能力,場景模擬已廣泛應用於多個領域。在此,我們將不同的場景分為兩大類:對話驅動場景,涵蓋社會互動和問答任務;以及以任務驅動場景,聚焦於特定領域的專業任務。

  • 對話驅動場景:對話驅動的場景以對話為驅動的場景涵蓋了人們日常生活中以對話為核心的情境,如社交或娛樂目的的場景。這些場景的共同特點是關注解決與特定任務或領域無關的通用目標。我們將對話驅動場景分為三種主要型別:社互動動、問答和遊戲場景。
  • 任務驅動場景:在任務驅動場景中,智慧體扮演具有特定功能的角色,以完成某一任務或任務集合。這些場景大多涉及與任務相關的一個或多個特定領域。我們將其劃分為三個主要類別:基礎與應用科學、軟體開發和其他行業。在這些領域中,智慧體被廣泛應用於解決複雜的領域特定問題,透過自動化任務和提升決策過程的效率,推動任務執行的最佳化。

詳細論述請讀者參閱原論文 Section 4.2,以及表格 2 中對現有代表性工作場景分類的總結。

評估方法

在場景模擬中,評估的重點是任務的解決效果。根據評估的範圍,可以將其分為任務評估、子任務評估和系統評估,每種評估方法都採用不同的自動化評估、基於大語言模型的評估和人工評估方法來衡量效能。

  • 任務評估:任務評估衡量分配給場景的任務整體表現。自動評估使用預定義的指標和數學工具,如準確率、編碼任務的 pass@k、成功率、覆蓋度和談判任務的成交價格等。這些方法高效且可擴充套件,但可能忽視複雜行為。因此,LLMs 和人工專家被應用於對定性任務進行更細緻的評估,並根據特定標準比較解決方案。
  • 子任務評估:子任務評估衡量場景模擬中子任務的完成情況及其對整體任務表現的影響,作為複雜任務執行過程的評估。自動評估使用運輸率、平均步驟數、任務成功率、重新規劃嘗試和效率提升等指標來評估子任務表現和策略效率。軟體生成任務中常使用完整性、可執行性和一致性等指標。基於 LLMs 的評估側重於對比評估或勝率判斷。同時,人工評估依賴參與者對執行性、修訂成本或評論質量等指標進行主觀評估。
  • 系統評估:系統評估旨在整體衡量場景模擬中系統的有效性和效率。自動評估依賴於諸如 token 消耗、任務成功率和人性化得分等指標來衡量智慧體的效率和真實性。額外的指標如準確率、精確度、召回率和 F1 得分常用於評估診斷或預測任務中的系統準確性和一致性。基於 LLMs 的評估通常使用 GPT-4 來評估定性方面,如擬人化程度或診斷報告質量。人工評估則通常透過主觀評估,例如採用 Likert 量表對教學內容的語氣、清晰度和支援性進行評分。這種方法常用於補充自動評估方法,並捕捉人類視角對系統輸出的看法。

詳細論述請讀者參閱原論文 Section 4.3

社會模擬

社會比單個場景更加複雜,其複雜性體現在組成的多樣性、結構的多元性以及非線性效應等多個方面。社會模擬並不以解決具體任務或問題為目標,而是分析和解釋大量智慧體之間互動所產生的湧現行為及其結果。本文從社會構建元素、場景型別和評估方法三個方面總結了社會模擬的工作。
圖片
圖 4:社會模擬示意圖。構建社會模擬,需要對社會構成、網路、社會影響和結果進行設計。基於此,可以模擬各種場景,並在微觀、宏觀和系統層級進行評估。

社會構建元素

考慮到社會的複雜性,社會模擬的一個主要挑戰是彌合個體和社會尺度之間的差距。為此,我們結合社會科學中的一些關鍵概念,總結提煉出了社會模擬中的 4 個核心元素:組成、網路、社會影響和結果

  • 組成(Composition):社會由大量多樣化的個體構成,這種多樣性,涵蓋了信仰、偏好、行為、規範和價值觀等廣泛的差異。目前,個體組成通常透過虛擬合成、現有資料集或基於真實分佈的取樣等方法實現。在確定總體個體組成後,有兩個關鍵問題引發了研究者的關注:平衡模擬精度與規模:隨著個體數量增加,對於個體的精細建模成本顯著提升,因此需要在建模精度與模擬規模之間做出權衡,目前常採用簡化個體細節或共享記憶等方式降低模擬成本;對特殊個體的建模:社會中的個體構成多樣,但並非所有個體都扮演同等重要的角色,當前研究通常對名人或意見領袖等 “異常值” 進行詳細建模。與此同時,基於模擬結果的干預策略通常干擾這些關鍵節點來影響整個系統的行為結果。
  • 網路(Network):社會互動通常透過社交網路進行,網路決定了資訊和影響力的傳播方向。在社會模擬中,網路可以分為線下網路和線上網路兩種。線下網路:離線網路透過面對面交流形成聯絡。一些研究模擬虛擬世界中的互動,隨機或預定義連線個體;另一些透過外部演算法估計社會關係。大規模研究中,個體間的網路關係有時會被忽略,或僅提供粗略的社群統計資訊來代替詳細的鄰居資訊。線上網路:線上網路透過社交平臺形成聯絡。部分研究使用隨機初始化或合成資料構建網路,另一些則抓取真實社交媒體資料。由於獲取真實關係困難,最近的研究結合真實與合成資料,或基於相似性連線個體。
  • 社會影響(Social Influence):社會影響包含行為主體對他人產生的影響,以及在互動過程中受到他人的影響。社會影響因其收者特徵不同而異,許多研究透過結合個體概要、記憶聯合建模來體現這種差異,也有工作引入認知偏差和規範反思機制以增強資訊理解和反應。社會影響也因發出者的身份、地位和聲譽而異,少數個體往往主導了大部分影響力,已有研究透過建模意見領袖、社會印象記憶等關係資訊來細化這個方面。
  • 結果(Outcome):社會湧現表明,集體行為或現象並非個體行為的簡單線性疊加。互動結果可分為可度量的宏觀結果(如投票或公眾意見)和定性的社會現象。可度量的宏觀統計結果:宏觀統計結果是許多研究的重點,部分工作透過直接計算個體選擇的總和或平均值來簡化社會動態,而另一些則透過多輪互動分析結果變化。社會現象和社會規範:社會現象和形成的社會規範也是社會互動的重要產物,目前透過計算附加指標或觀察主要指標的趨勢或透過一些案例研究來討論這類結果。

詳細論述請讀者參閱原論文 Section 5.1,以及表格 3 中對現有代表性工作社會構建元素的總結。

場景分類

社會模擬已廣泛應用於與人類社會相關的各類場景,現有研究主要分為三個領域:廣義經濟學、社會學與政治學以及線上平臺。

  • 廣義經濟學:經濟學中的模擬分析研究個體在資源分配和競爭中的決策行為,探討經濟激勵、市場規則和資源約束對決策的影響,以及群體互動如何影響經濟趨勢。一些研究關注博弈論,探索小規模群體中智慧體之間的複雜互動,涉及信任、邏輯推理、理性決策、合作傾向等;一些研究使用智慧體模擬經濟行為,研究宏觀經濟趨勢、資源分配、疾病傳播和失業率變化等。
  • 社會學與政治學:社會模擬在社會學和政治學中廣泛應用,旨在透過智慧體模擬人類行為,為預測群體意見、驗證理論和假設提供支援。一些工作關注民意調查,在選舉預測、公關危機管理方面均有應用;另一些研究觀察個體或組織行為,在沙盒環境中模擬社會互動,驗證特定場景下的理論,如黨派群體智慧、組織行為和人格演變。
  • 線上平臺:線上平臺是研究數字環境中的複雜社會現象的重要場所。這些平臺,包括社交媒體和線上社群,允許智慧體模擬現實世界中的互動,研究輿論形成、資訊傳播和集體行為等動態。一些研究透過模擬 Twitter、微博等社交媒體平臺上的互動,分析資訊傳播和輿論變化,並越來越關注合成資料和大規模高效模擬平臺的搭建。另一些工作模擬推薦平臺中的使用者響應,以改進推薦演算法,透過個性化行為和學習機制提高推薦準確性。

詳細論述請讀者參閱原論文 Section 5.2,以及表格 3 中對現有代表性工作的場景分類。

評估方法

社會模擬的評估主要集中在將模擬結果與現實資料進行比較,評估主要包括微觀層級、宏觀層級和系統層級

  • 微觀層級評估:微觀層級評估關注社會模擬中個體的模擬有效性。最初,研究透過評估智慧體與人類行為的相似度進行主觀評估,後續則發展出如黨派偏見和人類相似度指數等指標。對於現實場景的模擬,研究設計了自動化指標,透過與實證資料對比,提供更客觀的評估。
  • 宏觀層級評估:宏觀結果的評估關注模擬中的集體結果與現實世界的一致性,尤其是在傳播規模和集體意見等方面。除了直接觀察以外,一些量化指標,如擬合引數和相關係數,也被引入來客觀衡量差異。
  • 系統層級評估:系統層面評估關注的是模擬系統的整體效能,而不關心具體模擬的內容,包括計算效率、資源消耗和系統的可擴充套件性等。

詳細論述請讀者參閱原論文 Section 5.3

研究趨勢

個體模擬
圖片
圖 5:個體模擬趨勢示意圖,包括粗略模擬、精細模擬和麵向情境模擬。

個體模擬經過了三個階段的演變,分別是粗略模擬、精細模擬和麵向情境模擬,如圖 5 所示。從 2022 年 6 月起,研究者開始關注粗略模擬,尤其是測試 LLMs 的個性和模擬知名角色等表面特徵。到 2023 年 8 月,趨勢轉向更加精細的個體模擬,研究評估模擬模型的認知方面並提高其模擬能力。到 2024 年 4 月,研究者開始在特定場景中進行個體模擬,進一步擴充套件了模擬的複雜性和現實性。

場景模擬
圖片
圖 6:場景模擬趨勢示意圖,包括簡單場景、多階段場景和合作場景模擬。

場景模擬的發展經歷了三個明顯的階段,包括簡單場景、多階段場景、合作場景模擬。從 2023 年 1 月起,研究主要集中在簡單場景上,涉及單一目標並促進基本的情境互動。到 2023 年 6 月,研究重點轉向多階段場景,加入了多步驟任務,使智慧體能夠在不同的情境中進行順序決策和適應性反應,以實現更復雜的目標。到了 2024 年 2 月,研究逐漸聚焦於多智慧體協作場景,強調智慧體在複雜的高階模擬中合作和適應的能力。

社會模擬
圖片
圖 7:社會模擬趨勢示意圖,包括構建模擬環境、探索特定場景的對齊,以及擴充套件規模和模態。

社會模擬的發展可以分為三個階段。2023 年 6 月起,研究集中在構建初步的模擬環境。在此階段,研究者主要關注模擬環境的搭建與智慧體在環境中基本社交能力(如記憶、對話、簡單工具呼叫等)的實現。到 2024 年 2 月左右,研究重點轉向了特定場景下的對齊,特別是聚焦於個性化建模和特定場景中的一些可觀察和評測任務,推動了模擬精度和智慧體對環境適應能力的提升。2024 年 2 月以來,隨著技術迭代和智慧體模擬精度的提升,研究逐漸轉向了大規模模擬,研究者們在該場景下驗證了一些人類社會已有的規律(如馬太效應、帕累托法則等),進一步討論了智慧體社會與真實世界的一致性。與此同時,現實生活中的更多模態元素(如視覺、聲音等)也被納入模擬,強化了模擬的真實感和互動性,使得智慧體的行為可以更加貼近現實情境。

相關文章