AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。
論文:https://arxiv.org/pdf/2403.14624.pdf 主頁:https://mathverse-cuhk.github.io/ 程式碼:https://github.com/ZrrSkywalker/MathVerse 資料集:https://huggingface.co/datasets/AI4Math/MathVerse 題目:MATHVERSE: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?
a. 描述資訊,Descriptive Information(DI,紅色高亮部分)指的是影像中可直接觀察出的內容。它描繪了基本圖形組成、幾何形狀和空間佈局。此類文字資訊對於影像而言是重複性的,因此被視為解決問題的冗餘資訊。 b. 隱含屬性,Implicit Property(IP,藍色高亮部分)指的是那些需要更強的視覺感知能力才能從影像中辨識出來的屬性。它代表著解決問題所需的較強視覺條件,如線條之間的平行性和垂直性、三角形之間的相似性和全等性、函式的種類和週期性。 c. 基本條件,Essential Condition(EC,綠色高亮部分)指的是題目中給定的具體數值,它們是推導解決方案不可或缺的條件,並且不能從視覺圖表中直接得出,例如角度、長度的精確值和函式表示式。
MLLM 更依賴於文字資訊去解題,而不是觀察數學影像。 除 GPT-4V 和 ShareGPT4V 之外,大部分 MLLM 在沒有影像輸入的情況下,僅僅透過文字竟然可以獲得更高的得分,證明如今低質量的視覺編碼對於解題來說起到了負面的作用。 MLLM 很難從影像中準確的解讀出題目中的基本條件和問題。 閉源模型的多模態數學解題能力要比開源模型更好。 透過比較 G-LLaVA 和 LLaVA-1.5,使用數學訓練資料進行模型微調可以提升特定的解題能力,但是也會降低其泛化能力。 CoT 測評相比二元測評可以更全面的體現模型的邏輯推理能力。