Bengio團隊提出多模態新基準,直指Claude 3.5和GPT-4o弱點

机器之心發表於2024-06-28
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文作者張天宇,就讀於加拿大Mila人工智慧研究所,師從圖靈獎得主Yoshua Bengio教授。博士期間的主要工作聚焦於多模態、GFlowNet、多智慧體強化學習、AI於氣候變化的應用。目前已在ICML、ICLR、ICASSP等機器學習頂會發表論文。代表作為Large-scale Contrastive Language-Audio Pretraining with Feature Fusion and Keyword-to-Caption Augmentation (CLAP)。

想要達成通用人工智慧 AGI 的終極目標,首先要達成的是模型要能完成人類所能輕鬆做到的任務。為了做到這一點,大模型開發的關鍵指導之一便是如何讓機器像人類一樣思考和推理。諸如注意力機制和思維鏈(Chain-of-Thought)等技術正是由此產生的靈感。

然而,可能很多人並沒有意識到,很多對人類來說很簡單的認知任務也往往伴隨著非常複雜的推理過程。舉個例子,請大家試試根據下方的圖片填補被遮擋的文字空白:

圖片

(正確答案:來自全球各地的機器學習研究人員都對新型 GPU 感到興奮。它的尖端功能也能讓大規模實驗更高效、更便宜,即使它有爐灶那麼大。)

對大多數中文母語者而言,這個任務應該不難,相信大家不需要幾秒鐘就可以得到答案。但想從露出的部分文字推斷完整文字仍然需要十分複雜的推理過程:當代神經科學研究表明,復原被部分遮擋物體需要能進行高階決策的前額葉皮質的高度參與。

我們知道,當前的視覺語言模型(Vision-Language Models, VLM)可以非常精確地進行物體識別和文字識別。但是,當被遮擋的部分是文字;當模型的光學字元識別(OCR)失效;當僅有的關鍵資訊只有被遮擋文字的幾個畫素,模型能夠模擬人類的推理過程完成這一任務嗎?

為此,來自圖靈獎得主 Yoshua Bengio 的團隊提出了全新的視覺問答任務:視覺字幕恢復(Visual Caption Restoration,VCR)。讓我們藉由這個任務對視覺語言模型的推理能力一探究竟:當前的視覺語言模型距離人類的認知水平還有多長的路要走?

圖片

  • 論文標題:VCR: Visual Caption Restoration
  • 論文連結:arxiv.org/abs/2406.06462
  • 程式碼倉庫:github.com/tianyu-z/VCR (點選閱讀原文即可直達,包含評用於模型評測和預訓練的資料生成程式碼)
  • Hugging Face 連結:huggingface.co/vcr-org

VCR 資料集簡介

為了開發 VCR 任務,研究人員構建了一個由影像 - 文字生成 VCR 合成影像的流程。在該流程中可以透過控制遮住文字的白色矩形大小來改變影像中文字的可見性,從而控制任務難度

藉由該資料生成流程,研究人員透過維基百科的主圖 - 介紹對生成了 VCR-wiki 資料集。對兩種語言均設定 “簡單” 和 “困難” 兩個難度級別。其中:

  • “簡單” 難度 VCR 任務能使得 OCR 模型失效
  • “困難” 難度 VCR 任務則對每個被遮擋的文字只保留上下各 1-2 個畫素的高度,但依然能讓對應語言的使用者完成任務。

每種語言和難度中,測試集和驗證集各有 5000 個樣本,剩下的樣本都在訓練集中。

圖片

圖例:從左到右分別為,英文簡單難度、英文困難難度、中文簡單難度、中文困難難度

難度進一步提升後,人類 vs 模型

文章開頭的例子對人類而言只是一個小挑戰,不能很好地展示人類做這個任務的極限水平以及人類在解題的時候運用的思維和技巧。下面展示了一個 “困難” 難度的 VCR 任務樣例。讀者可以更專注地嘗試自己填補下方被遮擋的文字空白。

圖片

(正確答案:至大論,古希臘托勒密在約公元 140 年編纂的一部數學、天文學專著,提出了恆星和行星的複雜運動路徑。直到中世紀和文藝復興早期,該書提出的地心說模型被伊斯蘭和歐…)

人類是如何補全被部分遮擋的文字的?

教育學和認知科學中有一個概念叫做元認知(meta-cognition)。在設計 AI 的時候,我們人類作為教師,可以透過監控自己的思維過程當作參考來幫助作為模型的學生提高學習效率。因此,思考 “人類是如何完成 VCR 任務的” 可以對模型設計有指導意義。

下圖展示了一種筆者對 VCR 任務的解題思路作為參考:

圖片

看似步驟很多,其實就是在不斷透過不同的區域獲取資訊再反覆驗證來增加回答的置信度。

最開始看到圖片時,心裡只有一個模糊的猜測,在不斷閱讀圖片獲取新資訊的過程中,逐步驗證猜測。閱讀完畢後,開始填空時,仍然沒有停止透過資訊的不同方面來相互對照,印證答案。當 “假設” 無法與其他資訊保持一致時,就會推翻 “假設”,重新嘗試新的假設。

人類評測結果

人類在 VCR 任務下的水平如何呢?下圖中展示了母語者或各語言的流利使用者在英 / 中兩種語言的簡單 / 困難設定下的準確度:

圖片

如果考慮包含時間、地名、人名的錯誤,人類在簡單難度下的中文平均正確率約為 98.58%,在困難難度下的中文平均正確率約為 91.84%。而去掉這些因為時間、地名、人名的錯誤,人類在簡單難度的中文下幾乎接近滿分,而中文困難難度下正確率也達到了 96.63%。可以看出,VCR 任務對於人類而言是非常簡單的

現有模型結果

作者測試了 “全明星陣容”:Claude 3 Opus, Claude 3.5 Sonnet, Gemini 1.5 Pro, GPT-4o, GPT-4 Turbo, Qwen-VL-Max, Reka Core 以及一些目前效能最好的開源模型。

下圖中展示了在 VCR-Wiki 中文的簡單難度上各個模型的效能:

圖片

紅框測量指標包括代表包含了影像(VI)影像中的文字(TEI)兩部分作為上下文資訊,模型能還原出被遮住的文字的準確率。藍色框內表示僅包含影像中的文字(TEI)的作為上下文資訊,並不包含影像(VI),模型能還原出的遮住文字的準確率

圖片

結果表明:

  • 絕大多數模型目前都不能勝任這個任務;
  • 絕大多數模型沒有利用好影像資訊,沒有因為影像資訊(VI)而提高準確率

在中文的困難難度上,模型遇到了更大的麻煩。表現得最好的是 GPT-4o,但其只有 2.2%準確率。除了 CogVLM2-Chinese 和 Qwen-VL-Max,絕大多數模型的準確率都接近 0%

可以觀察到,在困難模式下,原始模型很難在本問題上以顯著的比例答對,更不用說接近人類了。

英文 VCR 評測結果

作者同樣對目前最優的開源和閉源視覺 - 語言模型在英文 VCR-Wiki 上做了測試。在展示測試結果之前,請先看兩個英文 VCR-Wiki 任務的樣例:

英文簡單樣例:

圖片

(正確答案:Since the United States Post Office issued its first stamp in 1847, over 4,000 stamps have been issued and over 800 people featured. Many of these people...)

英文困難樣例:

圖片

(正確答案:Lincoln is the luxury vehicle division of American automobile manufacturer Ford. Marketed among the top luxury vehicle brands in the United States, for...)

文中展示的英文 VCR-Wiki 的測試結果如下:

圖片

從結果整體來看,模型在英文的簡單模式和困難模式下都分別比中文表現得要好。這個結果與我們一般認為的 "因為特殊的模組化構形,殘缺的中文更加容易被補全" 的直覺不一致。或許這是由於在預訓練過程中,英文在資料量和資料質量上相比中文有更大的優勢。

在所測試的眾多模型中,GPT-4o 是閉源模型中的效果最佳的,CogVLM2 是開源模型中表現最佳的

一個很有趣的現象是加入了圖片對 CogVLM2 來說有了明顯的幫助(在困難模式下提升了 20.3%),而對於 GPT-4o 而言反而結果有下降。在中文測試中,也有相似的現象。筆者認為這是模型的結構所導致的。具體的細節,歡迎讀者參閱 CogVLM 系列的論文以及程式碼。

另外,閉源模型普遍取得了比開源模型更優的結果,這可能歸功於更優的訓練策略或是更多的模型引數。但即使如此,模型依然在 “困難” 設定下遇到了很大的挑戰。開源模型雖然可以部分完成 “簡單” 設定,但在困難設定下,大多數開源模型都無法完成這個對人類而言十分簡單的任務。

相關任務簡介

VQA

視覺問答(Visual Question Answering, VQA)任務要求模型根據輸入的影像和自然語言問題生成自由形式的回答。由於沒有唯一的標準答案,評估 VQA 具有很大的挑戰性。傳統的 VQA 方法主要集中於影像中可見元素的直接查詢,而不涉及影像中嵌入的文字內容與整體影像上下文之間的複雜關係。

在一些文字在圖片中資訊佔比比較大的 VQA 評測中,模型的視覺模組甚至可能完全不需要與語言模組對齊就可以勝任。此類流程為:影像輸入給 OCR 視覺模組,OCR 視覺模組輸出影像中的字元資訊並以此為上下文輸入給語言模組。這樣就導致了 VQA 任務退化成了不需要影像資訊的 QA 任務。原本比較不同的 VLM 需要的視覺模組對齊能力被忽視而 OCR 能力被重視。

OCR

光學字元識別(Optical Character Recognition, OCR)任務通常輸入影像中的完整字元,並輸出表示影像中字元的字串文字,而無需考慮影像上下文。

預訓練過 OCR 的模型能夠從輸入影像中提取嵌入的文字,即使這些文字是不完整或模糊的。然而,隨著文字元件模糊或被遮擋的程度增加,只利用可見部分恢復原始文字變得困難,OCR 方法在這種情況下效果有限

可以看出,VQA 任務沒有標準答案,評估模型回答的質量仍然是一個開放性問題。而 OCR 任務不需要透過上下文來完成,無法檢驗模型是否真的學會利用了上下文中的資訊。

VCR 任務的不可替代性

視覺字幕恢復(Visual Caption Restoration, VCR)任務旨在恢復影像中被遮擋的文字,這一任務 VQA 和 OCR 之間架起了橋樑

  • VCR 任務的獨特挑戰在於要求模型在視覺和文字資訊之間進行精確的對齊,這與 OCR 的簡單文字提取任務形成鮮明對比。在 OCR 中,主要關注的是識別可見字元,而無需理解它們在影像敘事中的上下文相關性。相比之下,VCR 要求模型協同利用可用的部分畫素級文字提示和視覺上下文來準確地重建被遮擋的內容。這不僅測試了模型處理嵌入文字和視覺元素的能力,還考驗了其保持內部一致性的能力,類似於人類透過上下文和視覺線索進行理解和響應的認知過程
  • 與 VQA 不同,VCR 任務的問題有唯一的答案,這使得評估可以透過準確度進行,使評測指標更加明確。
  • 透過調整文字的遮蓋比例,可以控制任務的難度,從而提供一個豐富的測試環境。
  • 與 OCR 任務一樣,VCR 任務也可以充當 VLM 的訓練任務。作者開放了 transform 程式碼,可以生成任意給定影像 - 文字對的 VCR 任務圖。

小結

本文提出的視覺字幕恢復(VCR)任務透過看似簡單的字幕恢復任務巧妙地揭開了現有模型影像 - 文字對齊的侷限性,以及模型與人類在高階認知任務上的推理能力差異。相信這一任務可以啟發未來更加有效的 VLM 訓練、評測和推理方法,進一步拉近多模態模型和人類認知能力的差距。

相關文章