揭秘AI幻覺:GPT-4V存在視覺編碼漏洞,清華聯合NUS提出LLaVA-UHD

机器之心發表於2024-04-07

GPT-4V 的推出引爆了多模態大模型的研究。GPT-4V 在包括多模態問答、推理、互動在內的多個領域都展現了出色的能力,成為如今最領先的多模態大模型。

然而,近期很多工作發現 GPT-4V 在很多基本能力上卻意外的出現短板。例如,在微軟一篇長達 166 頁的技術報告《The Dawn of LMMs:Preliminary Explorations with GPT-4V (ision)》中,作者發現,對於一個不太複雜的影像中的蘋果數量,GPT-4V 竟然怎麼數也數不對。

圖片

然而,學術界和工業界尚不清楚導致這些問題的底層原因。

這個問題在清華大學、新加坡國立大學和中國科學院大學的一篇題為《LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images》的論文中得到了解釋。

圖片

  • 論文連結:https://arxiv.org/pdf/2403.11703.pdf

  • 專案連結:github.com/thunlp/LLaVA-UHD

其原因在於 GPT-4V 很可能存在:視覺編碼漏洞。

該工作對當前最強的商業大模型 GPT-4V 和最受歡迎的開源模型 LLaVA-1.5 進行了實驗,揭示了目前多模態大模型中的視覺編碼漏洞。

圖片

漏洞 1:GPT-4V 將影像進行有重疊的切片後再編碼

作者首先設計了一個實驗來觀察:影像中的位置如何影響 GPT-4V 的計數回答。

具體來說,作者合成瞭如圖 1 (a) 所示的影像,並向 GPT-4V 提問題:“影像中有多少個圓圈?” 同時,透過改變圓圈的位置而保持提問不變,進一步生成了一系列影像變體。

圖 1 (b) 中以熱圖的形式顯示了 GPT-4V 對影像中每個位置平均回答的數量,作者發現了一個與影像中目標位置高度相關的有趣模式如圖 1(b)所示,具體表現為被 256×256 的正方形網格分割的三種不同模式:

(1) 中央正方形區域展示了最高的響應數量,

(2) 中間邊緣區域的響應數量較低,

(3) 角落區域的響應數量最接近於真實值。

在對 GPT-4V 的響應進行數值區分後,作者發現除了正確答案和接近正確答案的情況,還有兩種異常答案(8 個圓和 16 個圓),這些異常答案呈現了答案數量翻倍或四倍的錯誤模式。結合 OpenAI 公開的資訊,這一現象的最可能原因是,當影像解析度無法被 512 整除時,GPT-4V 處理影像的切片之間會出現重疊。如圖 1 (e) 所示,兩個切片之間的重疊區域導致數量翻倍,而四個切片的交叉重疊區域會使得識別出的數量增加至四倍。

圖片

作者設計了另一個實驗來觀察:影像解析度如何影響 GPT-4V 的計數回答。

具體來說,作者將圖 2 (a) 中的影像按比例縮放至連續遞增的解析度,並詢問 GPT-4V 其中圓圈的個數。

圖片

圖 2 (b) 中展示了 GPT-4V 的回答結果。隨著影像解析度的變化,GPT-4V 的回答顯示出顯著的相位變化:(1)在第 1 階段,由於沒有影像切片,大多數答案是正確的;(2)在第 2 階段,答案 12 在響應中占主導地位,可能是由於每個切片中的圓不完整;(3)第 3 階段顯示了 9、12 和 16 的混合答案。請注意,16 可以很好地解釋圖 1 (e) 中的錯誤模式。

以上兩個實驗結果揭示了 GPT-4V 在處理高解析度影像時存在重疊切片,導致錯誤響應,啟發作者需要進一步研究更合理的影像預處理和編碼方式。

漏洞 2:LLaVA-1.5 進行大範圍的影像填充(Padding)

LLaVA-1.5 作為出色的開源多模態大模型被學術界廣泛關注。

為了處理具有不同長寬比的影像,LLaVA-1.5 在將影像輸入視覺編碼器之前將其填充為正方形。這種編碼方法導致非正方形影像的計算浪費。例如,將 1:4 影像填充為正方形後,有效計算量僅為 25%。

更重要的是,LLaVA-1.5 實際上無法確定填充畫素是來自影像預處理還是原始輸入影像的實際部分。

圖片

為了演示這個問題,作者合成了一系列輸入影像,如圖 3(右)所示,其中不同長寬比的綠色矩形被灰色(即填充對應的 RGB 值)所包圍。給定輸入影像,作者提示:“最左 / 最右 / 最上 / 最下區域的顏色是什麼?” 從圖 3(左)的結果中,作者觀察到 LLaVA-1.5 忽略了灰色輸入區域(將其視為填充),並置信地回答了中心矩形的顏色。

綜合以上 2 個明顯的視覺編碼漏洞可以知道,多模態模型中的視覺策略必須謹慎設計。常見做法,如填充、形狀扭曲調整和重複切片,可能導致計算資源的浪費、模型能力的喪失,甚至容易受到對抗性攻擊。

於是,作者提出 LLaVA-UHD,該模型可以對 180 萬畫素任意長寬比影像進行編碼,相比於 LLaVA-1.5 在 9 個主流評測基準實現提升,訓練和推理計算開銷相比於 LLaVA-1.5 均有顯著下降。

圖片

LaVA-UHD 包括三個關鍵部分:一種影像模組化策略,將原始解析度的影像分成更小的可變大小的切片,以便進行高效和可擴充套件的編碼;一個壓縮模組,進一步壓縮來自視覺編碼器的影像 tokens,一個空間裝飾模式,用於為 LLMs 組織片段 tokens。

影像模組化策略中主要包含兩個部分:

1. 高解析度影像劃分策略(如圖 4 左側)。目標是確定高解析度影像的劃分方式,使每個切片的解析度變化最小。給定影像解析度和和在固定解析度上預訓練的 ViT,首先確定處理影像所需的切片數。然後將切片數因式分解為和幾種劃分方式。為了選擇最合適的劃分,作者定義一個評分函式來衡量與 ViT 標準預訓練設定的偏差,進而選擇最佳的劃分方法。

2. 任意寬高比切片編碼(如圖 4 右側)。目的是等比例調整影像以適應預訓練模型的位置嵌入數量。首先將 ViT 的 1D 位置嵌入轉換為 2D 格式,並進行插值以匹配動態切片解析度,從而獲得自適應影像尺寸的視覺編碼。實驗表明,此方法在保持 ViT 和位置嵌入引數不變的情況下,透過後期微調即可提升效能。此外,還編碼一張低解析度概覽影像,有助於提供全域性語義資訊,增強模型對影像的整體理解。

LLaVA-UHD 利用壓縮模組(Resampler)壓縮每張切片的 tokens,實現比 LLaVA-1.5 在 336×336 解析度影像中更低的計算成本來編碼 672×1008 解析度的影像。由於影像切片在不同影像之間是動態的,因此有必要透過位置修飾符來告知 LLM 影像切片的相對位置。

圖片

表 1 報告了主要的實驗結果。在效能表現上,LLaVA-UHD 相對於 LLaVA-1.5 取得了顯著的改進。透過簡單地感知原生高解析度影像,LLaVA-UHD 在 TextVQA 上實現了 6.4 的準確率提升,在 POPE 上實現了 3.2 的準確率提升。原因在於低解析度影像中的模糊內容可能會阻止 LMMs 準確識別具有挑戰性的細粒度目標和 OCR 字元。在計算效率和可擴充性上,LLaVA-UHD 僅使用 94% 的推理計算即支援任意寬高比的 672×1088 解析度影像,能夠適應更大解析度的擴充。

圖片

為了更直觀地展示 LMM 在處理高解析度影像方面的能力,在圖 5 中提供了 LLaVA-UHD 和 LLaVA-1.5 的定性結果。可以看到,LLaVA-UHD 可以正確識別課表上的密集內容,小海報上的文字以及手機上的圖示和文字,實現了細粒度的識別和推理。

未來展望

LLaVA-UHD 將影像解析度限制在最大 672×1008。但是在未來,考慮到其具有潛力的效率和可擴充套件性,將探索更高解析度的影像以及更具挑戰性的任務,如小目標檢測和分割。此外,目前影像片段是獨立編碼的,只在 LLMs 中進行互動。計劃透過改進的視覺編碼策略,在影像片段之間建立高效的連線,實現細粒度全域性資訊互動。

相關文章