AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
代彥琪是中國人民大學高瓴人工智慧學院的三年級博士生,師從盧志武教授,2022年畢業於大連理工大學軟體學院。他的研究興趣包括多工學習、多模態大模型以及角色扮演智慧體等領域,近期尤其關注多模態大模型指令微調中的多工衝突問題。如有任何交流或合作機會,歡迎透過郵箱 yanqi_dai@ruc.edu.cn 聯絡。
隨著大語言模型的飛速發展,角色扮演智慧體(RPAs)正逐漸成為 AI 領域的熱門話題。這類智慧體不僅能夠為人們提供陪伴、互動和娛樂,還在教育、社會模擬等領域展現出重要的應用潛力。然而,當前市面上的大多數角色扮演智慧體都只會「文字聊天」,其理解能力僅限於單一的文字模態,遠遠無法與具備多模態感知能力的人類相比。這讓我們不禁思考:我們真的只能與這些「單調」的智慧體對話嗎?顯然,答案是否定的!近日,中國人民大學高瓴人工智慧學院的研究團隊率先提出了「多模態角色扮演智慧體」(MRPAs)的概念。這類智慧體不僅能夠扮演特定角色,還能夠圍繞影像進行多模態對話。與此同時,團隊正式推出了 MMRole—— 一個專為 MRPAs 開發與評測量身打造的綜合框架。- 程式碼倉庫:https://github.com/YanqiDai/MMRole
- 論文地址:https://arxiv.org/abs/2408.04203
如圖 1 所示,該框架包括一個大規模、高質量的多模態角色扮演資料集 MMRole-Data,並配備了一套健全的評測方法 MMRole-Eval,涵蓋三個維度下的八項指標。在此基礎上,團隊開發了首個專門的多模態角色扮演智慧體 ——MMRole-Agent,在多模態資訊理解和角色扮演能力上明顯優於同等引數規模的通用對話模型。MMRole 打破了傳統角色扮演智慧體僅限於單一模態的侷限,讓智慧體能夠在影像和文字之間自由切換,帶來更為沉浸的對話體驗,進一步擴充套件了角色扮演智慧體的應用場景與價值。如圖 1(a)所示,MMRole-Data 是一個大規模、高質量的多模態角色扮演資料集,包含 85 個角色及其身份資訊、11K 張影像,以及 14K 段圍繞影像展開的單輪或多輪對話,共生成了 85K 條訓練樣本和 294 條測試樣本。在資料構建過程中,團隊藉助了 GPT-4V 進行輔助生成,並執行了嚴格的人工質量審查,為角色扮演智慧體的訓練和效能評測奠定了堅實基礎。 圖 2:MMRole-Data 中構建的所有角色。如圖 2 所示,MMRole-Data 涵蓋了三種角色型別:虛構角色、歷史和公眾人物,以及假想現實角色。前兩類角色的身份資訊由 GPT-4 透過總結 Wikipedia 或百度百科的人物介紹生成,而第三類角色的身份資訊則透過 GPT-4 採用兩階段生成方式,在確保多樣性的基礎上隨機生成。前兩類角色在之前的研究中已有較多探討,團隊特別引入了第三類角色,旨在提升和評測 MRPAs 在並不廣為人知的角色上的效能,使其在多樣化角色扮演場景中展現出更強的靈活性與泛化性。進一步地,MMRole-Data 引入來自 MS-COCO 資料集的通用影像,確保了對廣泛視覺概念的覆蓋。同時,團隊還人工收集和標註了劇照等與角色密切相關的影像,以更有效地喚起角色的個人經歷和情感。 圖 3:MMRole-Data 中三種對話場景的示例。最後,如圖 3 所示,團隊利用 GPT-4V 生成了三類以影像為中心的對話場景:評論性互動、使用者 - 角色對話,以及角色間對話。這些對話經過多輪規則過濾和嚴格的人工質量審查,確保了對話內容的準確性和角色一致性。特別地,如圖 4 所示,團隊對資料集的中文部分進行了精細打磨,成功再現了李白、孫悟空等經典人物的形象。透過深入挖掘這些角色的獨特個性和背景故事,MRPAs 能夠在多模態對話中更具表現力和沉浸感,為使用者帶來更加真實的互動體驗。如圖 1(b)所示,MMRole-Eval 是一套穩健而全面的多模態角色扮演智慧體評測方法,涵蓋三個維度下的八項評測指標,確保對智慧體的多方面能力進行深入評估。具體的評測指標包括:- 指令遵循度(Instruction Adherence, IA)
- 圖文相關性(Image-Text Relevance, ITR)
- 響應準確度(Response Accuracy, RA)
- 性格一致性(Personality Consistency, PC)
- 知識一致性(Knowledge Consistency, KC)
- 語氣一致性(Tone Consistency, TC)
為了定量評估 MRPAs 在各項指標上的效能,團隊開發了一個專門的獎勵模型。該模型首先對待評估的 MRPA 與構建的標準答案之間的相對效能進行簡要的定性評價,隨後為其生成一個定量的分數對,MRPA 的最終得分為該分數對中兩個分數的比值。為了開發這一獎勵模型,團隊利用 GPT-4 在所有測試樣本上對多個 MRPAs 進行評測,生成了大量評測軌跡,這些軌跡隨後被轉換為獎勵模型的訓練和驗證資料。 表 1:MMRole-Eval 評測結果。In-Test 表示在訓練集中出現過的角色上的測試,而 Out-Test 表示在訓練集中未見過的角色上的測試。如表 1 所示,團隊開發的首個專門的多模態角色扮演智慧體 MMRole-Agent(9B)在各項指標上表現出了卓越的效能,整體效能遠超同等引數規模(<10B)的通用對話模型,甚至優於部分引數量更大(10B-100B)的模型。此外, MMRole-Agent 在未見過的角色上同樣展現出了強大的泛化能力。 圖 5:MMRole-Eval 評測結果的視覺化。此外,如圖 5 所示,團隊將評測結果進行了視覺化分析,發現所有 MRPAs 在流暢度指標上均獲得了較高分數,表明生成流暢內容對於現有的大模型而言相對容易。然而,在其他評測指標上,尤其是性格一致性和語氣一致性指標,不同的 MRPAs 之間存在顯著差異。這說明,在多模態角色扮演智慧體的開發中,多模態理解能力和角色扮演質量是更具挑戰性的方面,需要在未來的研究和最佳化中予以特別關注。