首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源

机器之心發表於2024-04-22

圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。

引言

近年來,多模態大型語言模型(MLLM)在各個領域的應用取得了顯著的成功。然而,作為許多下游任務的基礎模型,當前的 MLLM 由眾所周知的 Transformer 網路構成,這種網路具有較低效的二次計算複雜度。為了提高這類基礎模型的效率,大量的實驗表明:(1)Cobra 與當前計算效率高的最先進方法(例如,LLaVA-Phi,TinyLLaVA 和 MobileVLM v2)具有極具競爭力的效能,並且由於 Cobra 的線性序列建模,其速度更快。(2)有趣的是,封閉集挑戰性預測基準的結果顯示,Cobra 在克服視覺錯覺和空間關係判斷方面表現良好。(3)值得注意的是,Cobra 甚至在引數數量只有 LLaVA 的 43% 左右的情況下,也取得了與 LLaVA 相當的效能。

語言模型(LLMs)受限於僅透過語言進行互動,限制了它們處理更多樣化任務的適應性。多模態理解對於增強模型有效應對現實世界挑戰的能力至關重要。因此,研究人員正在積極努力擴充套件大型語言模型,以納入多模態資訊處理能力。視覺 - 語言模型(VLMs)如 GPT-4、LLaMA-Adapter 和 LLaVA 已經被開發出來,以增強 LLMs 的視覺理解能力。

然而,先前的研究主要嘗試以類似的方法獲得高效的 VLMs,即在保持基於注意力的 Transformer 結構不變的情況下減少基礎語言模型引數或視覺 token 的數量。本文提出了一個不同的視角:直接採用狀態空間模型(SSM)作為骨幹網路,得到了一種線性計算複雜度的 MLLM。此外,本文還探索和研究了各種模態融合方案,以建立一個有效的多模態 Mamba。具體來說,本文采用 Mamba 語言模型作為 VLM 的基礎模型,它已經顯示出可以與 Transformer 語言模型競爭的效能,但推理效率更高。測試顯示 Cobra 的推理效能比同引數量級的 MobileVLM v2 3B 和 TinyLLaVA 3B 快 3 倍至 4 倍。即使與引數數量更多的 LLaVA v1.5 模型(7B 引數)相比,Cobra 仍然可以在引數數量約為其 43% 的情況下在幾個基準測試上實現可以匹配的效能。

圖片

圖 Cobra 和 LLaVA v1.5 7B 在生成速度上的 Demo

本文的主要貢獻如下:

  1. 調查了現有的多模態大型語言模型(MLLMs)通常依賴於 Transformer 網路,這表現出二次方的計算複雜度。為了解決這種低效問題,本文引入了 Cobra,一個新穎的具有線性計算複雜度的 MLLM。
  2. 深入探討了各種模態融合方案,以最佳化 Mamba 語言模型中視覺和語言資訊的整合。透過實驗,本文探索了不同融合策略的有效性,確定了產生最有效多模態表示的方法。
  3. 進行了廣泛的實驗,評估 Cobra 與旨在提高基礎 MLLM 計算效率的並行研究的效能。值得注意的是,Cobra 甚至在引數更少的情況下實現了與 LLaVA 相當的效能,突顯了其效率。

圖片

  • 原文連結:https://arxiv.org/pdf/2403.14520v2.pdf
  • 專案連結:https://sites.google.com/view/cobravlm/
  • 論文標題:Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference

方法介紹

模型架構

Cobra 採用了經典的視覺編碼器、連線兩個模態的投影器和 LLM 語言主幹組成的 VLM 結構。LLM 主幹部分採用了 2.8B 引數預訓練的 Mamba 語言模型,該模型在 600B token 數量的 SlimPajama 資料集上進行了預訓練並經過了對話資料的指令微調。

圖片

圖 Cobra 網路結構圖

與 LLaVA 等工作不同的是,Cobra 採用了 DINOv2 和 SigLIP 融合的視覺表徵,透過將兩個視覺編碼器的輸出拼接在一起送入投影器,模型能夠更好的捕捉到 SigLIP 帶來的高層次的語義特徵和 DINOv2 提取的低層次的細粒度影像特徵。

訓練方案

最近的研究表明,對於基於 LLaVA 的現有訓練正規化(即,只訓練投影層的預對齊階段和 LLM 骨幹的微調階段各一次),預對齊階段可能是不必要的,而且微調後的模型仍處於欠擬合狀態。因此,Cobra 捨棄了預對齊階段,直接對整個 LLM 語言主幹和投影器進行微調。這個微調過程在一個組合資料集上隨機抽樣進行兩個週期,該資料集包括:

  1. 在 LLaVA v1.5 中使用的混合資料集,其中包含總計 655K 視覺多輪對話,包括學術 VQA 樣本,以及 LLaVA-Instruct 中的視覺指令調優資料和 ShareGPT 中的純文字指令調優資料。
  2. LVIS-Instruct-4V,其中包含 220K 張帶有視覺對齊和上下文感知指令的圖片,這些指令由 GPT-4V 生成。
  3. LRV-Instruct,這是一個包含 400K 視覺指令資料集,覆蓋了 16 個視覺語言任務,目的是減輕幻覺現象。

整個資料集大約包含 120 萬張圖片和相應的多輪對話資料,以及純文字對話資料。

實驗

定量實驗

實驗部分,本文對提出的 Cobra 模型和開源的 SOTA VLM 模型在基礎 benchmark 上進行了比較,並對比了與同量級基於 Transformer 架構的 VLM 模型的回答速度。

圖片

圖 生成速度和效能對比圖

同時,Cobra 也與更多的模型在 VQA-v2,GQA,VizWiz,TextVQA 四個開放 VQA 任務以及 VSR,POPE 兩個閉集預測任務,共 6 個 benchmark 上進行了分數對比。

圖片

圖 在 Benchmark 上和其他開源模型的對比

定性試驗

此外 Cobra 也給出了兩個 VQA 示例以定性說明 Cobra 在物體的空間關係認知和減輕模型幻覺兩個能力上的優越性。

圖片

圖 Cobra 和其他基線模型在物體空間關係判斷的示例

圖片

圖 Cobra 和其他基線模型在關於視覺錯覺現象的示例

在示例中,LLaVA v1.5 和 MobileVLM 均給出了錯誤答案,而 Cobra 則在兩個問題上都做出了準確的描述,尤其在第二個例項中,Cobra 準確的識別出了圖片是來自於機器人的模擬環境。

消融實驗

本文從效能和生成速度這兩個維度對 Cobra 採取的方案進行了消融研究。實驗方案分別對投影器、視覺編碼器、LLM 語言主幹進行了消融實驗。

圖片

圖 消融實驗的效能對比圖

投影器部分的消融實驗結果顯示,本文采取的 MLP 投影器在效果上顯著優於致力於減少視覺 token 數量以提升運算速度的 LDP 模組,同時,由於 Cobra 處理序列的速度和運算複雜度均優於 Transformer,在生成速度上 LDP 模組並沒有明顯優勢,因此在 Mamba 類模型中使用透過犧牲精度減少視覺 token 數量的取樣器可能是不必要的。

圖片

圖 Cobra 和其他模型在生成速度上的數值對比

視覺編碼器部分的消融結果表明,DINOv2 特徵的融合有效的提升了 Cobra 的效能。而在語言主幹的實驗中,未經過指令微調的 Mamba 語言模型在開放問答的測試中完全無法給出合理的答案,而經過微調的 Mamba 語言模型則可以在各類任務上達到可觀的表現。

結論

本文提出了 Cobra,它解決了現有依賴於具有二次計算複雜度的 Transformer 網路的多模態大型語言模型的效率瓶頸。本文探索了具有線性計算複雜度的語言模型與多模態輸入的結合。在融合視覺和語言資訊方面,本文透過對不同模態融合方案的深入研究,成功最佳化了 Mamba 語言模型的內部資訊整合,實現了更有效的多模態表徵。實驗表明,Cobra 不僅顯著提高了計算效率,而且在效能上與先進模型如 LLaVA 相當,尤其在克服視覺幻覺和空間關係判斷方面表現出色。它甚至顯著減少了引數的數量。這為未來在需要高頻處理視覺資訊的環境中部署高效能 AI 模型,如基於視覺的機器人反饋控制,開闢了新的可能性。

相關文章