大模型怎麼做好角色扮演?最大的真實資料集、SoTA開源模型、最深入的評估在這裡 机器之心 發表於2025-03-17
王鑫濤,復旦大學博士生,師從肖仰華、汪衛教授,致力於探索用AI創造具有人格的數字生命。研究方向聚焦大語言模型與Agent技術,在AI角色扮演領域發表多篇ACL/EMNLP論文,以及該領域首篇研究綜述,總計引用量三百餘次。他的研究尋求AI技術與人類情感需求的結合。科研之外,他是一位二次元愛好者、業餘Coser。該研究完成於他在階躍星辰實習期間,指導者為王亨老師。 論文標題:CoSER: Coordinating LLM-Based Persona Simulation of Established Roles 論文連結:https://arxiv.org/abs/2502.09082 角色扮演 AI(Role-Playing Language Agents,RPLAs)作為大語言模型(LLM)的重要應用,近年來獲得了廣泛關注。無論是用於情感陪伴、故事創作、遊戲中的 AI 角色,還是真人的數字分身,都需要模型能夠準確捕捉和模擬特定角色的設定、個性和行為模式。特別是當扮演小說、動漫中的知名角色時,模型需要獲取並利用關於這些角色的大量知識。然而,現有的角色扮演 AI 面臨兩大核心挑戰:缺乏高質量的真實角色資料集,以及缺少有效的評估方法。 為解決這些問題,復旦大學和階躍星辰合作發表了一篇工作,CoSER(Co ordinating LLM-Based Persona S imulation of E stablished R oles),一個包含當下最大的真實資料集、SoTA 開源模型和最深入的評估方法的完整框架,用於高效構建和評估角色扮演 AI。本文的程式碼、資料集和模型已在 Github 和 Huggingface 上開源,用於促進角色扮演 AI 在研究和應用中的發展。 CoSER 8B: https://huggingface.co/Neph0s/CoSER-Llama-3.1-8B CoSER 70B: https://huggingface.co/Neph0s/CoSER-Llama-3.1-70B CoSER Dataset: https://huggingface.co/datasets/Neph0s/CoSER CoSER Code: https://github.com/Neph0s/COSER See and Chat with Your Favorite Book Characters: https://ch.rhineai.com/characters 從世界最知名的 771 本書中,本文構建了 CoSER Dataset,迄今為止最大、最真實、最豐富的角色扮演資料集,包含: 來自 771 本知名文學作品的 17,966 個角色 全面的資料型別:角色概述、對話(包含詳細的上下文情景)、關鍵劇情的摘要和角色經歷和等 語言、動作和想法:除了語言的對白,對話中還包括角色的動作和想法。 上圖將 CoSER Dataset 與之前的資料集進行了比較。概括來說,CoSER 的獨特之處在於:1. 真實性: 不同於此前資料集中大量使用的 LLM 生成的角色問答對,CoSER 資料集從經典文學作品中提取真實角色對話,在忠實刻畫角色的同時,保留了真實對話的複雜性,是天然的多輪、多角色的優質對話資料。2. 全面性: CoSER 資料集不僅包含角色概述和對話,還包括劇情摘要、角色經歷和對話背景等豐富內容。詳細的對話背景在角色扮演的訓練和評估中非常重要,而劇情摘要、角色經歷提供了更豐富的角色知識。3. 多維表達: 對話內容涵蓋語言(speech)、動作(action)和想法(thought)三個維度,使角色表現更為立體。其中,想法資料能幫助模型在訓練中更好地理解角色的行為和語言。4. 環境作為特殊角色: 將環境視為特殊角色,擴充套件了角色對話能表達的資訊,使對話資料可以表示書中的環境反饋、大眾角色反應等資訊。Given-Circumstance Acting 本文引入了給定情境表演(Given-Circumstance Acting,GCA) 方法用於訓練和評估 LLM 的角色扮演能力,這一方法受到了《演員的自我修養》的作者 - 斯坦尼斯拉夫斯基 - 的表演理論的啟發。 在訓練階段,給定一段對話及其上下文情景,本文讓模型每次扮演對話中的一個角色,並在相應的臺詞上進行訓練。基於這一方法,本文訓練了 CoSER 8B 和 CoSER 70B 兩個模型,它們基於 LLaMA-3.1 構建,展現了真實、生動的角色表現能力,並在多項角色扮演評估上取得 SoTA 成績。 1. 多智慧體模擬(Multi-agent Simulation): 構建一個多智慧體系統,讓被評估模型依次扮演不同角色,在給定情境下進行模擬,獲得一段由多個角色 AI 互動生成的對話。2. 基於懲罰的 LLM 評判(Penalty-based LLM Juding): 讓 LLM 扮演評判者,使用詳細評分標準(rubrics)和原始對話作為參考,按照 “採點扣分制” 識別明確的表演缺陷來評估模擬對話的質量。下圖展示了 “人物忠實度” 維度的扣分標準:本文將評估維度按照 1. 關注自身質量 or 關注忠於原作;2. 關注單一角色 or 關注整體模擬,分成了以下四個維度。 GCA 評估方法的優勢在於:1. 透過多智慧體模擬,全面反映模型的多輪、多角色的扮演能力;2. 基於原著中的真實對話作為 Groundtruth,並提供專家級評分標準指導 LLM 評判者。 在本文提出的 GCA 評估中,CoSER-70B、GPT-4o、Step-2、Doubao-pro 取得了最好的表現,其中,CoSER-70B 的表現遠超其他開源模型。進一步,本文在實驗中還彙報了 BLEU、ROUGE-L 等指標來比較模型生成對話與 Groundtruth 對話的一致性,在這一指標上 CoSER-70B 超過了所有的現有模型。 在 InCharacter、LifeChoice 等基於分類和多選題的角色扮演基準測試上,CoSER 模型也取得了優秀的表現。其中,CoSER-70B 在 InCharacter 和 LifeChoice 基準測試上分別達到了 75.80% 和 93.47% 的準確率,超越或匹配 GPT-4o。 在論文中,作者還進行了其他實驗,證明了想法資料在訓練 / 推理階段的重要性、將 CoSER 資料用於檢索增強(RAG)的有效性等結論,感興趣的讀者可以在論文原文中找到相應的實驗。 最後,下圖列出了 CoSER 測試集中的一個例子(出自《權力的遊戲》),包括其中的對話場景、Groundtruth 對話及 CoSER-70B 生成的結果。在這個例子中,我們看到,CoSER-70B 不僅將角色的背景、性格模仿得活靈活現,還用上了原作的角色的經典臺詞(不在資料中出現),體現了 CoSER 模型在扮演小說角色時的優秀表現。