真相了!大模型解數學題和人類真不一樣:死記硬背、知識欠缺明顯,GPT-4o表現最佳

机器之心發表於2024-07-23
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文作者來自北京郵電大學、騰訊微信、華中科技大學、北京理工大學。作者列表:喬潤祺,譚秋納,董冠霆,伍敏慧,孫衝,宋曉帥,公卻卓瑪,雷尚霖,衛喆,張淼萱,喬潤楓,張一凡,縱曉,徐一達,刁沐熙,包志敏,李琛,張洪剛。其中,共同第一作者喬潤祺是北京郵電大學博士生,譚秋納是北京郵電大學碩士生,通訊作者是北京郵電大學張洪剛副教授,該文章為喬潤祺在微信實習期間完成。

隨著人工智慧技術的快速發展,能夠處理多種模態資訊的多模態大模型(LMMs)逐漸成為研究的熱點。透過整合不同模態的資訊,LMMs 展現出一定的推理和理解能力,在諸如視覺問答影像生成跨模態檢索等任務中表現出色。這種多模態能力使得 LMMs 在各類複雜場景中的應用潛力巨大,而為了嚴謹科學地檢驗 AI 是否具備較強的推理能力,數學問答已成為衡量模型推理能力的重要基準

回顧 AI 的發展歷程,我們發現人類的認知和思考問題的方式對 AI 的發展產生了深遠的影響。諸如神經網路注意力機制等突破均與人類的思維模式息息相關。想象一下,人類在解答一個數學問題時,首先需要熟知題目所考察的知識點,而後利用相關知識進行逐步推理從而得出答案。但模型在作答時,其推理過程是否與人類一致呢?

聚焦於數學問題,我們發現模型可以回答出複雜問題,但在一些簡單問題面前卻捉襟見肘。為探究這一現象的原因,受人類解題思維模式的啟發,我們首先對先掌握知識點,再運用其進行邏輯推理的解題過程建模如下:

圖片

其中 (X, Y) 和 (x_i, y_i) 分別表示數學問題和每個子問題中的問題與答案,P_reason 代表 LMMs 的綜合運用能力 (知識泛化)。基於此,We-Math 首先基於 67 個原子知識點構建了一個多層級樹狀知識體系,緊接著以原子知識及推理答案為依據,透過將多知識點的複雜問題拆解為多個原子知識點對應的子問題來探究模型的作答機制。

圖片

  • 題目:WE-MATH: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning?
  • 論文:https://arxiv.org/pdf/2407.01284
  • 主頁:https://we-math.github.io/
  • 程式碼:https://github.com/We-Math/We-Math
  • 資料集:https://huggingface.co/datasets/We-Math/We-Math

目前 We-Math 在當日的 HuggingFace Daily Paper 中排名第一,並在推特上的瀏覽量達到 10K+!

圖片

We-Math Benchmark

1. 資料構成

We-Math 測評資料集共包含 6.5k 個多模態小學數學問題和一個多層級知識架構,每一個數學問題均有對應的知識點(1-3 個)。其中所有問題的知識點均被 5 層 99 個節點(最後一層包含 67 個知識點)的知識架構所涵蓋。並且如下圖所示,為了緩解模型在解決問題過程中固有的問題,我們參考教材與維基百科,啟發式的引入了 67 個知識點的描述,從而為 LMMs 的推理過程提供必要的知識提示。

圖片

圖片

2. 題目拆解

為了合理的評估模型的作答機制,我們嚴格以人類作答的標準答案為依據,按照複雜問題所包含的知識點,將其拆解成了 n 個子問題,其中 n 表示複雜問題包含的知識點數量。

如下圖所示,對於一道複雜問題:Mary 從一個圓形花壇的最北端點沿花壇邊緣走到最東端點,走過的距離是 50.24 米,求解圓形花壇的面積。在解題過程中,首先需要根據 “東南西北方向” 知識點,透過 “最北” 和 “最東” 兩個方向的條件,求得 Mary 走過路徑所對應的圓心角大小(“最北” 和 “最東” 的夾角為 90 度)。接著,根據 “圓的周長” 知識點,透過圓心角的大小為 90 度和 Mary 走過的路徑長度的條件,計算出圓形花壇的周長,並求得圓形花壇的半徑。最後,根據 “圓的面積” 知識點,透過求得的半徑的條件,計算出圓形花壇的面積,至此完成題目的求解。

分析上述解題過程,為了探究模型的答題機制以及模型的細粒度推理表現,可以將原題按照其對應的知識點拆解成三個子問題,具體而言,第一問:Mary 從一個圓形花壇的最北端點沿花壇邊緣走到最東端點,求她走過路徑的圓弧所對應的圓心角的度數;第二問:圓形花壇中,90 度圓心角所對應的圓弧弧長為 59.24m,求解圓形花壇的半徑;第三問:求半徑為 32m 的圓形花壇的面積。

圖片

3. 度量標準

在此基礎上,如下圖所示,我們引入一種新的四維度量標準,即知識掌握不足 (IK)、泛化能力不足 (IG)、完全掌握 (CM) 和死記硬背 (RM)。

  • 知識掌握不足 (IK): 模型無法作答出複雜問題,並在子問題中出現錯誤,我們推測模型無法作答出複雜問題的原因是因為對知識點掌握不足所導致的。
  • 泛化能力不足 (IG): 模型無法作答出複雜問題,但是所有的子問題中均回答正確,我們推測模型無法作答出複雜問題的原因是因為缺少綜合運用能力(泛化能力)。
  • 完全掌握 (CM): 模型可以作答出複雜問題,並且可以作答出所有的子問題,這種現象是合理且被期望得到的。
  • 死記硬背 (RM): 模型可以作答出複雜問題,但在子問題中出現錯誤,這與人類的邏輯思維相悖,如果一個模型可以解決複雜的多步問題,但無法作答出解答過程中所需的單步問題,我們認為這種情況是不合理的,考慮模型存在機械記憶的情況。

圖片

其中 IK、IG、CM 之間存在 IK<IG<CM 的層次關係,即模型需要先掌握知識,才可以討論綜合運用的能力,而 RM 我們認為是一種不合理的現象。此外,考慮到模型的不穩定性,當前判定結果是否屬於 RM 的標準較為嚴格。因此,我們提出了一種更靈活的寬鬆標準。如上圖所示,在包含兩個知識點的問題中,TFT 和 FTT 情況根據寬鬆標準(Loose Metric)被視為 CM(而非 RM)。我們在文章的附錄中同樣討論了四維度指標在三步問題中的情況。因此,結合上述情況我們最終提出了一個綜合打分度量標準,以此評估 LMM 推理過程中的固有問題。

實驗與結論

We-Math 目前在 17 個大模型中完成了評測,共包含 4 個閉源模型與 13 個開源模型。其中表 1 與圖 6 展示了 LMMs 在不同知識點數量下的結果與模型在第二層級知識點下的表現;表 2 與圖 7、圖 8、圖 9 展示了 LMMs 在四維指標下的結果以及在嚴格和寬鬆標準下的綜合打分結果;圖 10 展示了 KCA 策略對模型在 IK 問題中的緩解結果。

LMMs 在不同知識點數量下的表現及其在第二層級知識點下的表現

圖片

  • 模型作答情況與題目所包含的知識點數量呈現較明顯的負相關關係,即題目包含的知識點越多,模型作答情況越不理想。我們也提議可以透過題目包含的知識點數量對題目的難易度進行建模。
  • 模型在與計算相關的知識點下表現較好,在細粒度視覺問題上表現欠佳。也進一步表明 LMMs 在應用公式上較為擅長,但在理解和綜合應用知識方面仍有侷限。
  • GPT-4o 表現最佳,在包含不同知識點數量的題目中均保持領先,並在不同的知識點下基本保持領先。
  • LMMs 展現了一定的引數壓縮潛力。在不同的 LMMs 中,LLaVA-NeXT-110B 的表現最接近 GPT-4。而令人驚喜的是,儘管引數規模較小,InternVL-Chat-V1.5, GLM-4V-9B, InternLM-XC2 等模型的表現也展現出了較好的表現。

LMMs 在四維指標下的表現及其在嚴格和寬鬆標準下的綜合評分結果

圖片

圖片

  • 多數模型存在 “知識掌握不足” 和 “死記硬背” 的問題,尤其是在較小的模型中更加明顯。並且,“知識掌握不足” 仍是大多數模型的主要問題。
  • GPT-4o 在 “死記硬背” 的衡量維度上大幅領先於其他模型,進一步說明 GPT-4o 更貼近於人類的解題方式,其所呈現的結果更加可靠,意味著模型真正的學到了知識,而不是 “死記硬背”。
  • GPT-4o 在 “知識掌握不足” 這個衡量維度上大幅領先於其他模型,已經逐漸邁向下一階段,需要進一步提升 “知識泛化能力”。

LMMs 在 KCA 策略下的表現

圖片

  • 模型在 KCA 策略下整體表現有所提升。如上圖所示,不同引數規模的 LMMs 在引入 KCA 策略後,在嚴格和寬鬆指標上均表現出一致的效能提升。
  • KCA 策略顯著緩解了 IK 問題,但對 IG 問題的改善並不明顯。這與人類直覺一致,因為知識描述主要解決的是推理知識的缺口。然而,要解決 IG 問題,需要全面提升 LMMs 的知識泛化能力,這也為未來研究指明瞭方向。

總結

在本文中,我們提出了 WE-MATH,一個用於細粒度評測 LMMs 在視覺數學推理任務中作答機制的綜合基準。WE-MATH 共包含 6.5k 個視覺數學問題,涵蓋 5 層 67 個知識點的多級知識架構。我們開創性地根據題目所需的知識點將其拆解為多個子問題,並引入了一種新的四維度指標用於細粒度的推理評估。透過 WE-MATH,我們對現有的 LMMs 在視覺數學推理中的表現進行了全面評估,並揭示了模型作答情況與題目所包含的知識點數量呈現較明顯的負相關關係。

此外,我們發現多數模型存在死記硬背的問題 (RM),並且知識掌握不足(IK)是 LMMs 最大的缺陷。然而,GPT-4o 的主要挑戰已從 IK 逐漸轉向 IG,這表明它是第一個邁向下一個階段的模型。最後,我們對 KCA 策略和錯誤案例的分析進一步啟發性地引導現有的 LMMs 向人類般的視覺數學推理發展。

相關文章