AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
OASIS 的共同第一作者為(按隨機順序):阿卜杜拉國王科技大學(KAUST)訪問學生,上海 AI Lab 實習生,CAMEL AI 社群實習生楊子熠,以及大連理工大學博士生、上海 AI Lab 實習生張再斌(導師為盧湖川教授)。
通訊作者包括:上海 AI Lab 星啟研究員尹榛菲,Egent.AI CEO、CAMEL AI 社群發起人李國豪,以及上海 AI Lab 青年科學家邵婧。
由超過一百萬個大模型智慧體組成的虛擬社會會是什麼樣的?
最近,上海 AI Lab、CAMEL-AI.org、大連理工大學、牛津大學、馬普所等國內外多家機構聯合釋出了一個名為 OASIS 的百萬級智慧體互動開源專案。
該專案構建了一個以大模型為基座的通用社會模擬平臺,支援多達百萬個 AI 智慧體進行互動。研究人員可以利用 OASIS 輕鬆模擬超大規模 AI 智慧體在複雜社會環境中的互動。例如,在社交媒體場景(例如 Twitter 和 Reddit 等平臺)上對訊息傳播、群體極化和羊群效應等經典社會現象進行研究。這些示範性研究驗證了 OASIS 作為社會模擬平臺的有效性和實用性,同時 OASIS 也對智慧體社會在大模型和智慧體邁向 AGI 的技術路徑中產生的影響進行了討論。- 論文地址:https://arxiv.org/abs/2411.11581
- 程式碼地址:https://github.com/camel-ai/oasis
- 專案主頁:https://oasis.camel-ai.org
- 論文標題:OASIS: Open Agent Social Interaction Simulations with One Million Agents
隨著大語言模型通用能力的不斷提升,基於大語言模型的 AI 智慧體已成為當前 AI 領域的主要研究趨勢。從單個智慧體的研究到多個智慧體的互動,誕生了諸多引人注目的成果,例如 CAMEL [1]、Generative Agents [2]、ChatDEV [3]、MetaGPT [4] 等。1. 規模擴充套件不足:目前很少有研究將智慧體的互動數量擴充套件到上萬量級,而實現這一目標需要克服複雜的工程挑戰。2. 互動形式有限:即便有一些工作實現了上萬量級的智慧體互動,這些互動的形式仍然較為初步,通常只能支援簡單場景的模擬。OASIS 平臺思考的核心問題之一是:「如何設計一個平臺,能夠支援上萬甚至上百萬智慧體的互動模擬?」一個很直觀的想法是採用類似「群聊」的模式,但讓一百萬個智慧體同時參與群聊顯然不現實。現實生活中,有一種成熟的平臺每天支援數億使用者的高頻互動,那就是社交媒體。社交媒體已經深刻改變了我們的生活、工作和學習方式,同時也徹底革新了人們的溝通與協作模式。它不僅能夠支援超大規模使用者的高效互動,還可以靈活擴充套件到各種應用場景。因此,社交媒體為構建一個支援大規模智慧體互動的通用平臺提供了理想的基礎。正是基於這一認識,OASIS 團隊從社交媒體的視角出發,設計並搭建了這一平臺,旨在充分利用社交媒體的優勢,探索和實現智慧體的大規模互動與協作。OASIS 基於社交媒體的基本元件進行設計,因此可以適配不同形式的社交媒體平臺,例如 X(原 Twitter)、Reddit 等,使用者能夠輕鬆搭建符合自身需求的社交媒體環境。進一步來說,OASIS 模組性的設計使得研究人員可以輕鬆的將其擴充到其他場景中,例如城市模擬、AI Scientist Society 等等,這種靈活性使其適用於多種研究和應用場景。OASIS 在計算資源上的最佳化表現尤為突出。例如,利用 24 塊 A100 GPU,可以在一週內完成百萬級智慧體的模擬;而對於上萬規模的智慧體互動,僅需 1 塊 A100 GPU 即可完成。這種高效效能大幅降低了大規模智慧體研究的門檻。OASIS 支援 21 種不同的互動動作,包括髮帖、轉發、點贊、關注、搜尋等,全面模擬社交媒體使用者的行為。此外,OASIS 還整合了推薦系統、動態環境等高階功能,為研究複雜的社會行為提供了一個高度模擬的環境,滿足使用者多樣化的研究需求。1. Environment Server(環境服務)環境模組是整個社交媒體環境的核心資料庫,負責儲存使用者、帖子、關注關係等動態資訊。這些資料支援實時更新,模擬真實社交媒體互動的動態性和複雜性。2. Information Channel(資訊通道)Information Channel(資訊通道)將根據當前環境的定義來選擇如何傳遞智慧體之間的互動資訊。如在社交媒體中,資訊通道會根據社交網路和推薦系統從 Environment Server 獲取使用者資訊、帖子內容和關注關係等資料,並參考 Twitter 的開源技術方案搭建了類似 X 平臺 的演算法。該系統可以根據使用者的關注和興趣進行精準的資訊推送。同時,資訊通道是模組化的,即插即用,支援輕鬆切換到其他平臺(如 Reddit)的推薦機制,以及其他領域的資訊交換機制(如 AI 審稿和 Arxiv 機制)。推薦系統會將精選的帖子推送給智慧體。智慧體根據帖子資訊採取不同的動作(action)。OASIS 支援多種開源或閉源的大語言模型(LLM),並賦予智慧體豐富的互動能力,從而與環境進行高度模擬的互動。為了模擬社交媒體中的時間概念,OASIS 設計了時序機率啟用模組,透過採集使用者釋出內容的頻率,模擬使用者在不同時間點的行為,提升系統的模擬性。為支援大規模智慧體的高效模擬,OASIS 採用多執行緒排程、負載均衡等技術,在模擬過程中同時執行上百個執行緒以處理推理任務。該設計顯著提升了推理效率,滿足上萬甚至百萬級智慧體互動的需求。該團隊透過資料採集與生成的方式獲取大規模使用者資訊,並將這些資訊註冊到 Environment Server(環境伺服器)中,構建社交媒體環境的基本框架。Environment Server(環境伺服器)將使用者、帖子和關係資料傳遞給 Information Channel(資訊通道)。資訊通道會根據當前場景中特定的環境規則,決定資訊如何推送給其他智慧體。例如,在社交媒體中,資訊通道會根據社交網路和推薦演算法將個性化內容推送給不同的智慧體。智慧體基於推薦內容與環境進行互動,其行為(action)會動態更新到 Environment Server(環境伺服器)中,從而形成閉環模擬真實社交媒體的動態演化過程。研究團隊利用 OASIS 框架在 X 平臺和 Reddit 平臺上開展了多個經典的社會現象實驗,包括訊息傳播、群體極化、流言傳播以及羊群效應。訊息傳播實驗旨在透過 OASIS 儘可能模擬真實世界的場景,觀察其是否能夠較好地復現訊息傳播的趨勢。研究團隊選用了開源的 Twitter15 和 Twitter16 資料集,並透過 Twitter API 收集了資料集中使用者的相關資訊(如個人簡介、歷史推文等)。在實驗中,他們重現了 200 條源推文的傳播路徑,並將模擬結果與真實資料進行了對比分析,以評估模型的復現能力。研究團隊從三個維度分析了模擬結果與真實結果之間的差距:傳播規模(Scale,指影響到的使用者數量)、傳播深度(Depth,指資訊傳播的層級滲透程度)以及傳播最大廣度(Max Breadth,指傳播路徑的最大分支數)。結果顯示,在傳播規模和廣度方面,模擬結果與真實結果較為接近。然而,在傳播深度上,模擬結果與真實情況存在一定差距。這種差距是可以理解的,因為 Twitter 在使用者建模方面更為精細,能夠更準確地捕捉使用者的興趣偏好和行為特徵,從而更有效地反映傳播深度的實際情況。研究團隊還利用 OASIS 模擬了一個經典的社會心理學實驗 —— 群體觀點極化實驗(Group Polarization),並將實驗場景遷移至 Twitter 平臺進行。群體極化現象指使用者的觀點在互動過程中逐漸變得更加極端化。在實驗中,該團隊向 196 名使用者釋出了一條爭議性的帖子。帖子的內容是:「一個已經取得一定成功的作家,是否應該冒著收入中斷的風險撰寫一部宏偉鉅著以增加成名機率,還是維持現狀,享受穩定的收入。」透過這種情景模擬,研究團隊在多輪互動中對使用者的觀點進行問卷調查,以記錄其態度的變化趨勢。結果如圖所示。從實驗結果可以看出,隨著互動的不斷進行,使用者的觀點逐漸趨於極端,並給出愈發偏激的回答。該團隊進一步測試了未設安全護欄的 Uncensored 模型與經過對齊處理的 Aligned 模型,結果顯示,Uncensored 模型的極端化趨勢顯著更加明顯。這表明,去除安全約束後,模型在互動中的觀點極端化程度會進一步加劇。該團隊利用 OASIS 的 Agent Society 模組復現了一項發表於 Science 的研究 [6],探討了羊群效應(Herding Effect)的現象。羊群效應是指個體傾向於追隨群體的行為或觀點,例如使用者更傾向於點贊那些已有大量點讚的帖子。實驗在模擬的 Reddit 平臺中進行,該平臺僅顯示帖子的最終得分(點贊數減去點踩數)。帖子被分為三組進行對比實驗:透過觀察智慧體在互動後各組帖子的最終得分變化,可以評估初始得分對使用者行為的影響。實驗結果(如下圖所示)表明,初始「贊」顯著提高了帖子最終得分,而初始 「踩」則對得分造成了抑制效果。這表明,使用者在決策時受到群體行為的顯著影響,進一步驗證了羊群效應的存在。實驗結果顯示,agent 表現出比人類更強的羊群效應。當一條初始評論收到「反對」 時,agent 更傾向於繼續跟隨他人行為,進一步點「踩」 或減少點「贊」。研究團隊構建了一個包含 100 萬使用者的 Twitter 社交環境,其中包括 196 個核心使用者(擁有大量粉絲的大 V),其餘使用者為普通使用者。在實驗中,論文作者們讓分析能力最強的核心使用者釋出了 8 條訊息,這些訊息包括 4 對真假訊息對,分別涉及科技、娛樂、教育和健康等領域。實驗模擬了 96 分鐘的互動過程,每 3 分鐘為一個時間步。在此期間,該團隊統計了真假訊息相關帖子的數量變化,以分析真假訊息的傳播和影響力差異。實驗結果顯示,流言(假訊息)的影響力顯著強於真訊息。這一現象表明,在 OASIS 構建的代理社會中,假訊息的傳播規律與人類社會中類似 [7],表現出對假訊息的強傾向性。團隊對新增的關注關係進行了視覺化,其中綠色的點表示使用者,紅色的線表示新增的關注關係。從視覺化結果可以觀察到,使用者之間的新增關注關係呈現出明顯的聚集效應。這種現象與謝林隔離模型(Schelling Segregation Model)[8] 中的群體聚集模式有一定相似之處。具體來說,使用者更傾向於關注與自己已有社交網路更接近的使用者,導致新增的關係逐步形成小型的網路團體。研究團隊還模擬了不同群體規模對實驗結果的影響,並從中得出了一些發現。例如,隨著群體規模的擴大,Agent 的觀點更有建設性,群體行為的趨勢也更加顯著。具體內容請參見論文。OASIS 釋出後,引發了許多人對 Agent 社會的暢想,一些大 V 也紛紛分享了自己的觀點。例如,假如 AI Agent 社會與人類社會融為一體,我們該如何區分 Agent 和人類?這是一個非常值得深入研究的問題。一些網友想要把 OASIS 框架融入到 APP 世界中,讓 agent 操縱自己的賬戶以及各種各樣的日常 APP。也有的網友對於能進行 100 萬量級智慧體互動感到非常有趣和驚訝。OASIS 是我們邁向「智慧體社會」過程中的一個節點。研究團隊希望 OASIS 成為人工智慧、社會科學等多個學科領域的有力工具。他們將在這個起點上繼續推出更多工作,歡迎感興趣的朋友們 Star,或直接建聯,共同探索 AI 未來的無限可能![1] CAMEL: Communicative Agents for "Mind" Exploration of Large Language Model Society[2] Generative Agents: Interactive Simulacra of Human Behavior[3] ChatDev: Communicative Agents for Software Development[4] MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework[5] https://www.firesideagency.ca/online-marketing/why-your-business-needs-more-than-just-a-social-media-presence/[6] Social Influence Bias: A Randomized Experiment[7] The spread of true and false news online[8] Dynamic Models of Segregation