MLLM真能看懂數學嗎?MathVerse來了次摸底測評,放出當天登熱榜

机器之心發表於2024-04-19

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。


1、背景

在大算力的數字化時代下,大語言模型(LLM)以其令人矚目的發展速度,正引領著技術的潮流。基於它們強大的文字理解和生成能力,各大研究機構正在探索如何將這些能力擴充套件至視覺領域,構建一個能夠理解和生成多模態內容的超級智慧體 —— 多模態大語言模型(MLLMs)。

在追求通用視覺效能的道路上,社群內已經湧現出眾多精心設計的測評 benchmark。它們通常使用貼近日常生活的自然圖片作為樣例,為 MLLMs 的視覺能力提供全面的評估,如 MME、MMBench 等。然而,要深入瞭解 MLLMs 的 “思維” 和 “推理” 能力,僅憑通用視覺效能的測評遠遠不夠。多模態數學題求解能力,才是衡量它們深度認知和邏輯推理能力的真正試金石。

儘管如此,目前領域內依然缺少針對 MLLM 數學解題能力的測評 benchmark。現有的少數嘗試,如 GeoQA、MathVista 和 MMMU,透過深入分析,仍然存在一定的問題和偏差。鑑於此,我們推出一個全新的測評 benchmark——MathVerse,旨在深入探究 MLLMs 是否真正具備解讀和解答多模態數學題的能力,為未來的技術發展提供獨特的見解。

圖片

  • 論文:https://arxiv.org/pdf/2403.14624.pdf
  • 主頁:https://mathverse-cuhk.github.io/
  • 程式碼:https://github.com/ZrrSkywalker/MathVerse
  • 資料集:https://huggingface.co/datasets/AI4Math/MathVerse
  • 題目:MATHVERSE: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?

值得一提的是,這項研究在當日的 HuggingFace Daily Paper 中排名第一,並在推特上引發了廣泛的討論,瀏覽量高大 10K+。

2、關鍵發現

然而,透過全面觀察和分析,我們發現當前多模態數學 benchmark 中存在的三個關鍵問題:

1.MLLM 在測評中是否真正 “看到” 了數學影像?這是關於準確評估視覺數學問題解決能力最基本的問題。圖 1(a)展示了當前 benchmark 中的三個示例。我們觀察到,它們的題目文字中包含了大量與影像內容重複的資訊(以紅色高亮顯示)。這種冗餘可能無意中為 MLLM 提供了一條捷徑,使它們在解決問題時主要透過閱讀文字,而不是解讀圖表。我們假設從圖 1(b)的實驗中得到了支援。我們對每個 benchmark 隨機抽樣的 40 個問題,移除了這種冗餘文字,挑戰 MLLM 僅從視覺輸入中捕獲相應的資訊。結果顯示,大多數 MLLM 的準確率顯著下降(藍色柱子),甚至低於不將圖表作為輸入時的得分(灰色柱子)。這一結果表明,MLLM 在解決這些問題時,主要依賴於文字線索,而非真正去理解視覺影像本身,並且,在不輸入影像的情況下,甚至可以得到更高的評分。鑑於此,我們展示了當前的視覺數學 benchmark 可能不足以全面評估 MLLM 的真正多模態數學推理能力。

圖片

2. 僅透過 MLLM 回答的最終答案來評估是否公平?大多數現有的多模態 benchmark 直接將模型輸出與真值進行比較,以得出二元評估結果(“正確” 或者 “錯誤”)。雖然這種方法對於通用的視覺問答情境可能足夠,但在需要複雜逐步推理的數學問題中卻顯得過於武斷。在圖 2 中,我們展示了三個不同模型的輸出。儘管它們最終都得到了錯誤的答案,但它們在中間推理過程中展現了不同程度的精確性。僅將這些輸出歸類為 “錯誤”,未能捕捉到 MLLMs 推理質量的細微差別。

圖片

3. 它們是否能夠全面並且專注的體現出 MLLM 的數學推理能力?GeoQA 僅僅包含了平面幾何數學題,從而限制了對更廣泛數學能力的評估,例如函式和立體幾何。相反,MathVista 加入了廣泛的輔助任務(自然影像、統計圖表)來擴充套件範圍,但這些並不直接評估 MLLM 的專業數學技能。此外,MMMU 中的數學問題具有大學級別的複雜度,需要廣泛的領域特定知識,這可能阻礙 MLLMs 充分展示它們的推理能力。

3、MathVerse Benchmark

1. 資料組成和統計

MathVerse 測評資料集收集了 2612 個多模態數學題,並人工標註構造了多達 15672 個測試樣本,廣泛涵蓋了 3 個主要題目型別和 12 個子類,例如平面幾何、立體幾何和函式。經過團隊細緻檢查與標註,MathVerse 高質量資料可以為 MLLM 提供一個魯棒且全面的能力測評。

圖片

圖片


2. 如何體現 MLLM 的數學影像理解能力?

我們首先根據題目中文字和影像的資訊關聯,如下圖所示,定義了 3 種不同的文字類別

  • a. 描述資訊,Descriptive Information(DI,紅色高亮部分)指的是影像中可直接觀察出的內容。它描繪了基本圖形組成、幾何形狀和空間佈局。此類文字資訊對於影像而言是重複性的,因此被視為解決問題的冗餘資訊。
  • b. 隱含屬性,Implicit Property(IP,藍色高亮部分)指的是那些需要更強的視覺感知能力才能從影像中辨識出來的屬性。它代表著解決問題所需的較強視覺條件,如線條之間的平行性和垂直性、三角形之間的相似性和全等性、函式的種類和週期性。
  • c. 基本條件,Essential Condition(EC,綠色高亮部分)指的是題目中給定的具體數值,它們是推導解決方案不可或缺的條件,並且不能從視覺圖表中直接得出,例如角度、長度的精確值和函式表示式。

圖片

基於以上三種文字資訊的定義,我們將每道多模態數學題透過人工標註,系統地移除問題中的不同文字資訊,並逐步將關鍵元素融入到圖表中,擴充為 6 個不同的題目版本,如下圖所示。這種方法可以逐漸減少文字中提供的資訊量,從而越來越有力地迫使 MLLM 從視覺輸入中捕獲數學條件。透過比較 MLLM 在不同題目版本之間的得分,我們可以很清晰的評估它們的真實視覺理解能力。

圖片

3. 如何細緻評估 MLLM 的中間解題步驟?

與一般情景下的視覺問題回答相比,MLLM 解決數學問題的過程需要細膩、逐步的鏈式推理(Chain-of-Thought,CoT)。為此,我們提出了一種 CoT 評估策略,以細緻的評估它們的視覺數學鏈式推理能力。我們的 CoT 策略透過分別提示 GPT-4 和 GPT-4V 進行兩個階段的測評:關鍵步驟提取(Key-step Extraction)和多步評分(Multi-step Scoring)。如下圖所示:

圖片

這種評估策略不僅關注最終答案的正確性,而且更加重視解題過程中的邏輯連貫性和推理深度。透過這種方法,我們能夠更加精準地揭示 MLLM 在解決複雜數學問題時的真實能力,尤其是它們如何一步步構建問題解決方案的能力。這對於理解 MLLMs 的思維方式、推理能力,以及它們如何處理和解釋視覺與數學資訊的綜合能力至關重要。

4、實驗與結論

我們在 MathVerse benchmark 上測評了 17 個現有的 MLLM,如下表所示。其中 “CoT-E” 代表使用了我們提出的 CoT 測評策略,而 “w/o” 代表了直接進行二元對錯的測評結果。

圖片

基於測評,我們可以得出以下結論:

  1. MLLM 更依賴於文字資訊去解題,而不是觀察數學影像。
  2. 除 GPT-4V 和 ShareGPT4V 之外,大部分 MLLM 在沒有影像輸入的情況下,僅僅透過文字竟然可以獲得更高的得分,證明如今低質量的視覺編碼對於解題來說起到了負面的作用。
  3. MLLM 很難從影像中準確的解讀出題目中的基本條件和問題。
  4. 閉源模型的多模態數學解題能力要比開源模型更好。
  5. 透過比較 G-LLaVA 和 LLaVA-1.5,使用數學訓練資料進行模型微調可以提升特定的解題能力,但是也會降低其泛化能力。
  6. CoT 測評相比二元測評可以更全面的體現模型的邏輯推理能力。

相關文章