AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
(Multi-Domain Multi-step Multi-modal Chain-of-Thought),旨在解決上述問題,並推動多領域、多步和多模態思維鏈的進步。研究者們還進行了全面的評估,涉及豐富的多模態推理設定與方法。
研究者們還發現當前的多模態大模型在 上的表現存在巨大的效能缺陷,儘管它們在以前的傳統多模態思維鏈基準上表現優異。最後,研究團隊希望 能夠成為一個有價值的資源,為多領域、多步和多模態思維鏈的研究提供開創性的基礎。
榜單地址:https://lightchen233.github.io/M3CoT.github.io/leaderboard.html 論文地址:https://arxiv.org/abs/2405.16473 程式碼地址:https://github.com/LightChen233/M3CoT
視覺模態推理缺失樣本移除:首先,為解決視覺模態推理缺失的問題, 利用自動和手動相結合的方式移除了那些無需影像即可得出答案的樣本。 多步多模態樣本構建:這一階段中,為了保證基準滿足多步多模態的要求,首先自動的去除了推理路徑過短的樣本,隨後透過手動去除和最佳化樣本,確保每一個樣本確實需要跨模態的多步推理。 多模態 CoT 領域增強:此外,透過引入數學和常識領域的資料,將 LaTeX 程式碼轉為圖片,並利用大模型生成更多的問題、推理路徑和答案,增強了基準的多樣性和挑戰性。 質量檢查:為了保證資料集的質量,實施了多輪人工稽核和自動檢測,確保資料的一致性和準確性。
開源模型與 GPT4V 仍有差距:儘管這些模型在現有基準測試中表現優異,但在 上的表現仍有顯著差距。尤其是當前的開源 VLLMs 在多步多模態推理方面表現不佳,與 GPT4V 相比存在顯著差距。 GPT4V 與人類仍有差距:此外,儘管 GPT4V 在 上的表現優於其他 VLLMs,但與人類表現相比仍存在顯著差距。這表明,當前的 VLLMs 在處理複雜的多模態推理任務時仍需進一步改進。 多模態思維鏈湧現現象:視覺大模型在引數級別超過 100 億(≥13B)時表現出思維鏈湧現現象。
單步推理任務的表現遠優於多步推理任務。模型在解決多步多模態推理時效能與單步多模態推理有接近 30% 的差距,且隨步驟數增加,效能遞減。這表明模型在處理複雜多步驟推理時仍存在困難。 提高模型生成的推理過程質量對於提升 的表現至關重要。透過評估多維度的推理質量,研究者們觀察到推理質量的提升與 的效能呈現指數級相關關係。提升多模態推理的邏輯質量是解決 的關鍵瓶頸之一。
多模態資訊互動的增加能夠顯著提升模型的推理效能。由於 要求推理時動態的包含多個跨模態推理步驟,則至少有 2 步跨模態推理,而現有模型推理過程中,平均的跨模態推理步驟數小於 1。這說明未來的研究應注重提高推理過程的質量和多模態資訊的互動,以解決當前模型在 上的表現不足。