ACL 2024 Oral|我們離真正的多模態思維鏈推理還有多遠?

机器之心發表於2024-08-11
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

該文章的第一作者陳麒光,目前就讀於哈工大賽爾實驗室。他的主要研究方向包括大模型思維鏈、跨語言大模型等。

在過去的幾年中,大型語言模型(Large Language Models, LLMs)在自然語言處理(NLP)領域取得了突破性的進展。這些模型不僅能夠理解複雜的語境,還能夠生成連貫且邏輯嚴謹的文字。

然而,隨著科技的發展和應用場景的多樣化,單一文字模態的能力顯然已經不能滿足現代需求。人們日益期待能夠處理和理解多種模態資訊(如影像、影片、音訊等)的智慧系統,以應對更復雜的任務和場景。研究者們開始嘗試將文字 CoT 的能力擴充套件到多模態思維鏈推理領域,以應對更加複雜和多樣化的任務需求。

最早的多模態思維鏈研究之一是由 Lu 等人 [1] 引入的 ScienceQA 基準,該基準結合了視覺和語言資訊,推動了多模態思維鏈(Multi-modal Chain of Thought, MCoT)的研究。ScienceQA 資料集的出現,使得研究者們能夠在一個統一的框架下評估多模態模型的思維鏈推理能力。

進一步地,Zhang 等人 [2] 的研究更是將 MCoT 的效能推向了一個新高,使得模型在 ScienceQA 資料集上的表現超過了人類的水平 (93%>88%)。然而,當前的多模態思維鏈研究是否真正解決了所有挑戰?隨著 ScienceQA 等基準測試的成績不斷重新整理,我們是否可以認為多模態推理問題已經迎刃而解?

研究者們透過深入分析發現,當前的多模態思維鏈基準仍然存在嚴重的問題,導致對模型實際能力的高估。當前的多模態思維鏈基準仍面臨以下三個嚴重的問題:視覺模態推理缺失僅有單步視覺模態推理以及領域覆蓋不足

這些問題嚴重製約了多模態思維鏈領域的發展。因此,研究者提出了一個新的基準

圖片(Multi-Domain Multi-step Multi-modal Chain-of-Thought),旨在解決上述問題,並推動多領域、多步和多模態思維鏈的進步。研究者們還進行了全面的評估,涉及豐富的多模態推理設定與方法。

研究者們還發現當前的多模態大模型在 圖片 上的表現存在巨大的效能缺陷,儘管它們在以前的傳統多模態思維鏈基準上表現優異。最後,研究團隊希望 圖片 能夠成為一個有價值的資源,為多領域、多步和多模態思維鏈的研究提供開創性的基礎。

圖片

  • 榜單地址:https://lightchen233.github.io/M3CoT.github.io/leaderboard.html
  • 論文地址:https://arxiv.org/abs/2405.16473
  • 程式碼地址:https://github.com/LightChen233/M3CoT

動機

儘管在 MCoT 研究領域取得了顯著進展,但現有基準仍然存在諸多不足:

1. 視覺模態推理缺失:模型往往可以僅基於文字模態生成推理和答案,這並不能真實反映多模態 CoT 模型的能力。
2. 單步視覺模態推理:比如說,只需要看到單次圖片中的 “羽毛” 便可直接獲得答案。而在實際應用中,多步推理更為常見和必要,要求模型在推理的過程中動態的多次結合多模態資訊進行綜合推理。
3. 領域缺失:對於思維鏈來說,常識推理和數學推理是該領域的重要組成部分,而現有基準缺乏對常識和數學等重要領域的覆蓋,限制了多模態 CoT 能力的綜合評估。

圖片


針對以上問題,研究者們開發了一個新基準圖片,並希望推動多領域、多步和多模態思維鏈的研究與發展。

圖片

資料構建過程

圖片

圖片 的構建涉及如下四個關鍵階段:

  • 視覺模態推理缺失樣本移除:首先,為解決視覺模態推理缺失的問題,圖片 利用自動和手動相結合的方式移除了那些無需影像即可得出答案的樣本。
  • 多步多模態樣本構建:這一階段中,為了保證基準滿足多步多模態的要求,圖片首先自動的去除了推理路徑過短的樣本,隨後透過手動去除和最佳化樣本,確保每一個樣本確實需要跨模態的多步推理。
  • 多模態 CoT 領域增強:此外,圖片透過引入數學和常識領域的資料,將 LaTeX 程式碼轉為圖片,並利用大模型生成更多的問題、推理路徑和答案,增強了基準的多樣性和挑戰性。
  • 質量檢查:為了保證資料集的質量,圖片實施了多輪人工稽核和自動檢測,確保資料的一致性和準確性。

主流多模態大語言模型評測結果

研究者們在多個大型視覺語言模型(VLLMs)上進行了廣泛的實驗,包括 Kosmos-2、InstructBLIP、LLaVA-V1.5、CogVLM、Gemini 和 GPT4V 等。研究者們還探索了一些提示策略,如直接提交樣本、思維鏈提示(CoT)[3] 以及描述性提示(Desp-CoT)[4] 和場景圖思維鏈提示策略(CCoT)[5]。

實驗結果與結論如下所示:
  • 開源模型與 GPT4V 仍有差距:儘管這些模型在現有基準測試中表現優異,但在 圖片上的表現仍有顯著差距。尤其是當前的開源 VLLMs 在多步多模態推理方面表現不佳,與 GPT4V 相比存在顯著差距。
  • GPT4V 與人類仍有差距:此外,儘管 GPT4V 在 圖片 上的表現優於其他 VLLMs,但與人類表現相比仍存在顯著差距。這表明,當前的 VLLMs 在處理複雜的多模態推理任務時仍需進一步改進。
  • 多模態思維鏈湧現現象:視覺大模型在引數級別超過 100 億(≥13B)時表現出思維鏈湧現現象。
    圖片
分析

此外,為了回答如何能夠在 圖片 上獲得更好的表現。研究者們提供了更全面的分析,從而揭示了當前 VLLMs 在多步多模態推理方面的顯著不足,為未來的最佳化提供了方向。

  • 單步推理任務的表現遠優於多步推理任務。模型在解決多步多模態推理時效能與單步多模態推理有接近 30% 的差距,且隨步驟數增加,效能遞減。這表明模型在處理複雜多步驟推理時仍存在困難。

    圖片

  • 提高模型生成的推理過程質量對於提升圖片 的表現至關重要。透過評估多維度的推理質量,研究者們觀察到推理質量的提升與 圖片 的效能呈現指數級相關關係。提升多模態推理的邏輯質量是解決 圖片 的關鍵瓶頸之一。
圖片
  • 多模態資訊互動的增加能夠顯著提升模型的推理效能。由於 圖片 要求推理時動態的包含多個跨模態推理步驟,則至少有 2 步跨模態推理,而現有模型推理過程中,平均的跨模態推理步驟數小於 1。這說明未來的研究應注重提高推理過程的質量和多模態資訊的互動,以解決當前模型在 圖片 上的表現不足。

圖片

探索

在此基礎上,研究者們進一步探究了當前各種常用的多模態方法與設定,探究是否能夠有效的解決 圖片 中的問題。

工具使用探索

在多模態推理中,工具使用被認為是提高模型效能的一種有效策略。研究者們在實驗中評估了多種工具使用方法,包括 HuggingGPT、VisualChatGPT、IdealGPT 和 Chameleon 等模型。

文字大模型使用多模態工具在 圖片 上表現不佳:實驗結果表明,儘管這些工具在單模態任務中表現良好,但在 圖片 基準上的表現仍存在顯著差距。例如,HuggingGPT 在處理複雜的多步推理任務時,由於缺乏對視覺資訊的有效利用,表現較為遜色。此外,VisualChatGPT 和 IdealGPT 在處理需要多模態互動的任務時,表現也未能達到預期。這些結果表明,當前的工具使用框架需要進一步改進,以更好地整合和利用多模態資訊。
圖片
上下文學習探索

在上下文學習方面,研究者們探索了不同的示例策略對模型效能的影響。具體而言,研究者們評估了純文字示例以檢測模型在多模態推理時是否會進行文字形式的學習,同時還評估了多模態示例以檢測模型在多模態推理時是否會利用多模態示例進行上下文學習。

純文字示例無法提高 圖片 上的效能:實驗結果顯示,對於純文字示例來說,這些樣本數量對模型效能影響幾乎可以忽略不計,這說明,純粹的文字形式的模仿並不足以解決 圖片 問題。

影像和文字交錯的多模態示例甚至可能會損害 圖片 上的效能:對於多模態示例來說,上下文學習僅僅能夠提高較大模型的能力。然而,對於一些訓練過多模態互動資料的模型來說,甚至會隨著樣本數量增加而出現效能下降。因此,研究者們認為,未來需要將包含邏輯的更高質量的影像和文字交錯示例用於上下文學習的訓練,並增強多模態大模型的多模態互動能力,才能夠在一定程度上改善模型的表現。

圖片

指令微調探索

為了進一步提高模型在 圖片 上的表現,研究者們進行了微調實驗。

指令微調能夠顯著增強傳統視覺語言模型(VLMs)的效能:指令微調使傳統視覺語言模型超越零樣本視覺大模型,這就是我們的資料集在提高 VLM 有效性方面的價值。經過微調的 VLM(最低為 44.85%)優於大多數具有零樣本提示的開源 VLLM(最高為 38.86%)。

指令微調能夠進一步地增強大型視覺語言模型的效能:透過在 圖片 資料集上進行微調,LLaVA-V1.5-13B 模型的整體準確率提高了近 20%,並接近了 GPT4V 的水平。

因此,研究者們建議未來的研究可以更多地關注指令微調技術,以進一步提升多模態推理模型的表現。

圖片

結論及展望

研究者們引入了一個新的基準 圖片,旨在推動多領域、多步和多模態思維鏈的研究。研究者們的實驗和分析表明,儘管現有的 VLLMs 在某些任務上表現優異,但在更復雜的多模態推理任務上仍有很大改進空間。透過提出 圖片,研究者們希望能夠重新評估現有的進展,並透過指出新的挑戰和機會,激發未來的研究。研究者們期待 圖片 能夠成為一個有價值的資源,為多領域、多步和多模態思維鏈的研究提供開創性的基礎。

參考資料:
[1] Lu et al. Learn to Explain: Multimodal Reasoning via
Thought Chains for Science Question Answering. In Proc. of NeurIPS 2022.
[2] Zhang et al. Multimodal Reasoning with Multimodal Knowledge Graph. ACL 2024.
[3] Kojima et al. Large language models are zero-shot reasoners. In Proc. of NeurIPS 2022.
[4] Wu et al. The Role of Chain-of-Thought in Complex Vision-Language Reasoning Task. Arxiv 2023.
[5] Mitra et al. Compositional chain-of-thought prompting for large multimodal models. CVPR 2024.

相關文章