當視覺大模型陷入認知失調,馬里蘭大學構建了一個幻覺自動生成框架

机器之心發表於2024-11-11

圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文的共同第一作者是馬里蘭大學電子計算機工程系的博士生吳曦暘(https://wuxiyang1996.github.io/)和電腦科學系的關天瑞(https://tianruiguan.phd/)。吳曦暘的研究方向主要涵蓋強化學習、自動駕駛,以及大語言模型在機器人導航和計算機視覺中的應用。關天瑞的研究則聚焦於計算機視覺和視覺語言模型在機器人、自動駕駛等領域的應用。本文的指導老師為李典奇,周天翼教授 (https://tianyizhou.github.io/)和 Dinesh Manocha 教授 (https://www.cs.umd.edu/people/dmanocha)。

想象一下,有一天你在沙漠中看到一個雪人,或者在雪地裡發現一棵棕櫚樹。面對這些與周圍環境格格不入的景象,你是否會感到心理上的不適?

在認知科學領域,研究者普遍認為人腦傾向於利用以往的經驗來解讀觀察到的資訊並構建記憶。然而,當人腦接收到與以往認知不符的資訊時,可能會因為 “認知失調”(Cognitive Dissonance)而對外部環境產生誤判,進而在行為上表現出矛盾。例如,我們通常認為電腦是由人類操控的,但如果我們看到一隻章魚在操控電腦,這種不符合常理的場景會讓人腦產生認知失調的不適感。

隨著對大模型的深入研究,研究人員發現,在認知和推理任務上,大模型的思維過程與人腦有一定相似之處。因此,針對人腦認知失調特點設計的實驗也能使大模型出現類似的 “幻覺” 現象。

基於這一觀察,馬里蘭大學的研究團隊提出了一個名為 AutoHallusion 的視覺大模型幻覺自動生成框架。這一工作基於團隊之前在 CVPR 2024 上發表的工作 HalluionBench(https://arxiv.org/pdf/2310.14566)。它透過在場景影像中插入或刪除特定物體,並針對這些修改後的影像提問,從而檢測大模型在回答時可能出現的幻覺現象。

這一方法能夠自動生成大量的大模型幻覺案例,有效緩解當前大模型幻覺研究中資料集缺乏的問題。在 GPT-4V、Gemini 和 Claude 等大模型上的實驗表明,這些模型在本文提出的提出的基準資料集上問答準確率最高僅為 66.0%。該研究成果已發表於 EMNLP 2024。

圖片

  • 論文標題:AUTOHALLUSION: Automatic Generation of Hallucination Benchmarks for Vision-Language Models

  • 論文連結:https://arxiv.org/pdf/2406.10900

  • 專案主頁及程式碼:https://wuxiyang1996.github.io/autohallusion_page/

文章概述

大型視覺語言模型(LVLMs)在內容生成、自動駕駛和機器人等領域中扮演著重要角色。然而,它們也會出現 “幻覺” 現象,即生成的響應中包含視覺內容中不存在的資訊。這些幻覺通常是由於語言模組過度依賴語言先驗資訊而忽略視覺輸入所致。

為了解決這一問題,之前的工作通常收集幻覺案例建立基準資料集,並以此對大模型進行微調,以減少可能存在的幻覺。然而,手動建立幻覺案例和基準既耗時又昂貴。此外,之前的工作對大模型產生幻覺的機制研究有限,在缺乏足夠代表性案例的情況下對大模型進行微調,可能會導致模型出現過擬合現象。

為此,本文提出了 AUTOHALLUSION 框架,可以自動生成各種幻覺案例並進行批次生產。該框架基於認知科學原理,針對大模型產生幻覺的原因,提出了三種主要策略:插入異常物體、插入成對物體和移除相關物體,透過操控場景中的物體構成來建立與語言先驗相沖突的影像。

為了生成能夠觸發大模型幻覺的(影像 - 問題)組合,本文針對修改後的影像,設計相應的問題探測大模型的語言模組,定位特定物體或其在相關情境中的語言先驗資訊。如果大模型的推理受到語言先驗的偏見影響,例如在根據圖片回答某一特定物體的問題時,大模型根據場景圖片的先驗知識而非物體本身傳遞的資訊來作答,那麼就可能生成與事實不符或前後不一致的響應,從而導致幻覺現象。

AUTOHALLUSION 在包括 GPT-4V、Gemini、Claude 和 LLaVA 等最新的大模型上進行了實驗,並整理釋出了一個基準資料集,來評估模型效能。在該基準資料集上的實驗結果表明,GPT-4V 等大模型的問答準確率最高僅為 66.0%。

資料集地址:https://github.com/wuxiyang1996/AutoHallusion

研究方法

圖片

AUTOHALLUSION 的整體流程分為四個部分:

1. 場景生成:AUTOHALLUSION 使用合成或真實世界影像作為場景圖。例如,在辦公室場景中,假設場景中有電腦、辦公桌、辦公椅等與辦公室主題一致的物體,而不會有炒鍋等與主題無關的物體。影像可以透過 DALL-E 等影像生成模型根據提示生成,也可以從 MSCOCO 等公開資料集中提取場景。

2. 影像處理:AUTOHALLUSION 採用三種策略操控場景中的物體構成,以建立與語言先驗相沖突的影像:

  • 插入異常物體:將與場景主題不相關的異常物體新增到場景中,例如,在辦公室場景中新增通常不會出現的炒鍋。

  • 插入成對物體:對通常一起出現的兩個物體進行分離,保留一個並移除另一個。例如,牙刷和牙膏通常一起出現,而在修改後的影像中,只保留牙刷並移除牙膏。

  • 移除相關物體:從原場景中移除一個相關物體,例如,在辦公室場景中抹除顯示器。

3. 構造問題:AUTOHALLUSION 針對影像處理過程中插入或刪除的物體進行提問,並相應地構造事實資訊。問題主要分為兩類:

  • 存在性問題:詢問目標物體是否存在於影像中,問題提示資訊的細節級別不一,從不提供額外資訊到提供完整的影像描述。

  • 空間關係問題:詢問目標物體與場景中其他物體的相對位置,並在問題提示中提供場景物體的名稱或描述。

圖片

4. 幻覺檢測:AUTOHALLUSION 透過對比大模型的回答與事實資訊或其他回答,來判斷其回答中是否存在幻覺。目前,AUTOHALLUSION 能夠檢測以下兩種型別的大模型幻覺:

  • 正確性:大模型的回答與基本事實不一致。

  • 一致性:大模型在面對包括不同級別的補充資訊的問題時,無法給出一致的答案,或者在針對某一特定物體的提問中,未能提供與影像描述一致的答案。

實驗結果

下表展示了透過 AutoHallusion 生成的大模型幻覺案例的成功率,結果顯示出以下幾個主要發現:

  • 插入物體的幻覺生成策略比刪除物體的策略更有效。

  • 基於物體存在性構建的問題比基於物體空間關係的問題更容易引發幻覺。

  • GPT-4V 在防止大模型幻覺方面表現最好。

  • 針對真實世界資料集構建的幻覺案例成功率高於合成資料集。本文認為,這可能是由於大模型難以處理真實世界影像中物體語義關係的複雜性所致。

圖片

下圖展示了針對物體 - 場景對齊關係的消融實驗結果。在該實驗中,本文采用不同的大模型來生成用於影像編輯的物體,並在視覺問答(VQA)任務中進行評估。

圖片

基準資料集指標

本文從以下三個方面評估了透過 AutoHallusion 生成的基準資料集:

  • 多樣性:衡量資料集中不同場景和物件的數量,包括 200 個(合成)/160 個(真實世界)樣本。

  • 影像質量:透過原始影像和編輯影像的 IS(Inception Score)分數,以及原始影像與編輯影像之間的 Frechet Inception Distance (FID) 距離來評估。

  • 有效性:透過每個樣本中引發幻覺的平均問題數量來衡量。

圖片

下表展示了 GPT-4V、Gemini、Claude 和 LLaVA 等大模型在透過 AutoHallusion 生成的基準資料集上的表現。

圖片

相關文章