AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
個體模擬(Individual Simulation):利用 LLM 智慧體來模擬特定個體或群體,側重於對於單個人的特徵複製,而不涉及多智慧體互動; 場景模擬(Scenario Simulation):在一個集中的場景中組織多個智慧體,由特定的目標或任務驅動,通常集中在特定場景中的小規模智慧體上,研究多智慧體的集體智慧; 社會模擬(Society Simulation):模擬智慧體社會中更復雜多樣的行為,探索現實世界應用中的社會動態,從小範圍對社會理論、假設的驗證,到對大規模的現實社會現象的探索。
綜述連結:https://arxiv.org/abs/2412.03563 專案地址:https://github.com/FudanDISC/SocialAgent
概要(Profile):向模型提供被扮演個體的基本資訊特徵,繼而影響其行為。概要涉及個體的年齡、性別、心理學特徵等,主要透過描述和對話的形式呈現,通常包括人工整理和藉助大模型生成兩種方式。 記憶(Memory):儲存並利用已有資訊和感知資訊,確保智慧體行為一致性和連續性。記憶分為短期記憶和長期記憶。記憶的主要操作包括寫入、檢索和反思三種型別。 規劃(Planning):幫助智慧體模擬人類處理問題時的個性化決策過程,使其與模擬個體的思維方式一致。個體模擬的規劃可以分為共情規劃和主觀規劃。 行為(Action):將智慧體的決策轉化為特定的輸出,支撐智慧體與環境互動。行為的環境主要有簡單對話和塑造情景兩類,而行為型別分為開放域行為和封閉域行為。
非引數化提示:直接透過提示詞直接為模型提供個體資料,依靠模型的上下文學習能力來模擬個體。個體描述通常透過系統提示詞輸入到模型中。 引數化訓練:透過更新通用模型的引數來實現個體模擬,主要分為預訓練、微調和強化學習三種方式。預訓練在原始大模型上直接訓練擬合個體相關資料。微調則根據特定任務和情境,調整模型以適應個體模擬需求。強化學習透過在動態環境中最佳化模型,不斷學習個體行為來改進模擬效果。
人群個體:指具有相似特徵(如心理特徵或身份特徵)的群體代表。人群模擬通常用於反映群體意見、評估特定群體的偏好和偏見。此類模擬常透過非引數化提示方法實現。 人物個體:指特定的個體,通常是廣泛為人所知的角色。人物模擬中的角色可分為真實角色和虛擬角色,這些角色通常可以獲取相關的高質量資料。
靜態評估:透過讓智慧體直接生成輸出進行評估,通常採用簡單的問答、選擇題或採訪形式。靜態評估可分為主觀評估和客觀評估,分別依賴人工或大模型依據主觀標準進行判斷,或使用數學和統計工具基於具體指標進行分析。 互動評估:在互動環境中評估智慧體在與其他智慧體或使用者互動中的模擬能力。互動評估常應用於遊戲表現、任務完成和角色扮演等場景,其關鍵特點包括精心設計的互動環境、實時的外部反饋以及多階段的評估過程。
環境(Environment):在場景模擬中,環境定義了智慧體操作與互動的具體背景。就像人類從周圍環境中獲取資訊一樣,智慧體也依賴於環境從不同的來源接收輸入訊號。這些訊號指導著智慧體在系統中的行為與決策。由此,全面理解環境是智慧體決策制定與任務連續性保障的基礎。我們透過聚焦於配置、狀態、歷史和工具這四個關鍵方面對現有研究中的環境進行分析。配置:提供場景相關的基本資訊以便智慧體在明確的目標下進行互動。狀態:包括場景執行過程中環境提供的資訊。歷史:是指隨著場景的執行,過去的狀態和互動逐漸積累成一系列記錄。工具:提供與場景模擬任務相關的專業功能(如 Python 和 SQL),能夠實現更準確和精確的結果。 角色(Role):在場景模擬中,我們根據智慧體的任務和功能為其分配不同的角色。典型設定中有兩類角色:參與者負責執行場景中的任務,而引導者則管理任務執行過程,並提供必要的支援。每個角色都有其獨特的責任,側重於系統操作的不同方面。各角色之間協作,以實現系統的整體目標。參與者:是積極參與任務執行和討論的關鍵成員,他們的組織和溝通是場景模擬中任務完成的核心。引導者:在場景模擬中提供關鍵支援,負責規劃流程、協調溝通和整合結果,例如規劃者、協調者、整合者。 組織 (Organization):有效的任務執行需要精心協調和安排個體智慧體之間的互動。組織框架決定了每個智慧體如何與其他智慧體協作以實現目標。通常,我們可以透過組織模式和組織結構來描述其組織框架。組織模式:決定了智慧體之間的關係在整個模擬過程中的穩定性或動態變化。組織結構:反映了智慧體之間的連線方式。 通訊 (Communication):智慧體之間的通訊控制著資訊的傳遞。為了更好地理解通訊的內部機制,我們從通訊形式和通訊風格兩個方面進行分析。通訊形式:指通訊的協議,主要分為非結構化自然語言和結構化語言。通訊風格:指通訊雙方的立場,通常可分為合作性和競爭性兩種。
對話驅動場景:對話驅動的場景以對話為驅動的場景涵蓋了人們日常生活中以對話為核心的情境,如社交或娛樂目的的場景。這些場景的共同特點是關注解決與特定任務或領域無關的通用目標。我們將對話驅動場景分為三種主要型別:社互動動、問答和遊戲場景。 任務驅動場景:在任務驅動場景中,智慧體扮演具有特定功能的角色,以完成某一任務或任務集合。這些場景大多涉及與任務相關的一個或多個特定領域。我們將其劃分為三個主要類別:基礎與應用科學、軟體開發和其他行業。在這些領域中,智慧體被廣泛應用於解決複雜的領域特定問題,透過自動化任務和提升決策過程的效率,推動任務執行的最佳化。
任務評估:任務評估衡量分配給場景的任務整體表現。自動評估使用預定義的指標和數學工具,如準確率、編碼任務的 pass@k、成功率、覆蓋度和談判任務的成交價格等。這些方法高效且可擴充套件,但可能忽視複雜行為。因此,LLMs 和人工專家被應用於對定性任務進行更細緻的評估,並根據特定標準比較解決方案。 子任務評估:子任務評估衡量場景模擬中子任務的完成情況及其對整體任務表現的影響,作為複雜任務執行過程的評估。自動評估使用運輸率、平均步驟數、任務成功率、重新規劃嘗試和效率提升等指標來評估子任務表現和策略效率。軟體生成任務中常使用完整性、可執行性和一致性等指標。基於 LLMs 的評估側重於對比評估或勝率判斷。同時,人工評估依賴參與者對執行性、修訂成本或評論質量等指標進行主觀評估。 系統評估:系統評估旨在整體衡量場景模擬中系統的有效性和效率。自動評估依賴於諸如 token 消耗、任務成功率和人性化得分等指標來衡量智慧體的效率和真實性。額外的指標如準確率、精確度、召回率和 F1 得分常用於評估診斷或預測任務中的系統準確性和一致性。基於 LLMs 的評估通常使用 GPT-4 來評估定性方面,如擬人化程度或診斷報告質量。人工評估則通常透過主觀評估,例如採用 Likert 量表對教學內容的語氣、清晰度和支援性進行評分。這種方法常用於補充自動評估方法,並捕捉人類視角對系統輸出的看法。
組成(Composition):社會由大量多樣化的個體構成,這種多樣性,涵蓋了信仰、偏好、行為、規範和價值觀等廣泛的差異。目前,個體組成通常透過虛擬合成、現有資料集或基於真實分佈的取樣等方法實現。在確定總體個體組成後,有兩個關鍵問題引發了研究者的關注:平衡模擬精度與規模:隨著個體數量增加,對於個體的精細建模成本顯著提升,因此需要在建模精度與模擬規模之間做出權衡,目前常採用簡化個體細節或共享記憶等方式降低模擬成本;對特殊個體的建模:社會中的個體構成多樣,但並非所有個體都扮演同等重要的角色,當前研究通常對名人或意見領袖等 “異常值” 進行詳細建模。與此同時,基於模擬結果的干預策略通常干擾這些關鍵節點來影響整個系統的行為結果。 網路(Network):社會互動通常透過社交網路進行,網路決定了資訊和影響力的傳播方向。在社會模擬中,網路可以分為線下網路和線上網路兩種。線下網路:離線網路透過面對面交流形成聯絡。一些研究模擬虛擬世界中的互動,隨機或預定義連線個體;另一些透過外部演算法估計社會關係。大規模研究中,個體間的網路關係有時會被忽略,或僅提供粗略的社群統計資訊來代替詳細的鄰居資訊。線上網路:線上網路透過社交平臺形成聯絡。部分研究使用隨機初始化或合成資料構建網路,另一些則抓取真實社交媒體資料。由於獲取真實關係困難,最近的研究結合真實與合成資料,或基於相似性連線個體。 社會影響(Social Influence):社會影響包含行為主體對他人產生的影響,以及在互動過程中受到他人的影響。社會影響因其接收者特徵不同而異,許多研究透過結合個體概要、記憶聯合建模來體現這種差異,也有工作引入認知偏差和規範反思機制以增強資訊理解和反應。社會影響也因發出者的身份、地位和聲譽而異,少數個體往往主導了大部分影響力,已有研究透過建模意見領袖、社會印象記憶等關係資訊來細化這個方面。 結果(Outcome):社會湧現表明,集體行為或現象並非個體行為的簡單線性疊加。互動結果可分為可度量的宏觀結果(如投票或公眾意見)和定性的社會現象。可度量的宏觀統計結果:宏觀統計結果是許多研究的重點,部分工作透過直接計算個體選擇的總和或平均值來簡化社會動態,而另一些則透過多輪互動分析結果變化。社會現象和社會規範:社會現象和形成的社會規範也是社會互動的重要產物,目前透過計算附加指標或觀察主要指標的趨勢或透過一些案例研究來討論這類結果。
廣義經濟學:經濟學中的模擬分析研究個體在資源分配和競爭中的決策行為,探討經濟激勵、市場規則和資源約束對決策的影響,以及群體互動如何影響經濟趨勢。一些研究關注博弈論,探索小規模群體中智慧體之間的複雜互動,涉及信任、邏輯推理、理性決策、合作傾向等;一些研究使用智慧體模擬經濟行為,研究宏觀經濟趨勢、資源分配、疾病傳播和失業率變化等。 社會學與政治學:社會模擬在社會學和政治學中廣泛應用,旨在透過智慧體模擬人類行為,為預測群體意見、驗證理論和假設提供支援。一些工作關注民意調查,在選舉預測、公關危機管理方面均有應用;另一些研究觀察個體或組織行為,在沙盒環境中模擬社會互動,驗證特定場景下的理論,如黨派群體智慧、組織行為和人格演變。 線上平臺:線上平臺是研究數字環境中的複雜社會現象的重要場所。這些平臺,包括社交媒體和線上社群,允許智慧體模擬現實世界中的互動,研究輿論形成、資訊傳播和集體行為等動態。一些研究透過模擬 Twitter、微博等社交媒體平臺上的互動,分析資訊傳播和輿論變化,並越來越關注合成資料和大規模高效模擬平臺的搭建。另一些工作模擬推薦平臺中的使用者響應,以改進推薦演算法,透過個性化行為和學習機制提高推薦準確性。
微觀層級評估:微觀層級評估關注社會模擬中個體的模擬有效性。最初,研究透過評估智慧體與人類行為的相似度進行主觀評估,後續則發展出如黨派偏見和人類相似度指數等指標。對於現實場景的模擬,研究設計了自動化指標,透過與實證資料對比,提供更客觀的評估。 宏觀層級評估:宏觀結果的評估關注模擬中的集體結果與現實世界的一致性,尤其是在傳播規模和集體意見等方面。除了直接觀察以外,一些量化指標,如擬合引數和相關係數,也被引入來客觀衡量差異。 系統層級評估:系統層面評估關注的是模擬系統的整體效能,而不關心具體模擬的內容,包括計算效率、資源消耗和系統的可擴充套件性等。