首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源
机器之心發表於2024-04-22
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。
近年來,多模態大型語言模型(MLLM)在各個領域的應用取得了顯著的成功。然而,作為許多下游任務的基礎模型,當前的 MLLM 由眾所周知的 Transformer 網路構成,這種網路具有較低效的二次計算複雜度。為了提高這類基礎模型的效率,大量的實驗表明:(1)Cobra 與當前計算效率高的最先進方法(例如,LLaVA-Phi,TinyLLaVA 和 MobileVLM v2)具有極具競爭力的效能,並且由於 Cobra 的線性序列建模,其速度更快。(2)有趣的是,封閉集挑戰性預測基準的結果顯示,Cobra 在克服視覺錯覺和空間關係判斷方面表現良好。(3)值得注意的是,Cobra 甚至在引數數量只有 LLaVA 的 43% 左右的情況下,也取得了與 LLaVA 相當的效能。大語言模型(LLMs)受限於僅透過語言進行互動,限制了它們處理更多樣化任務的適應性。多模態理解對於增強模型有效應對現實世界挑戰的能力至關重要。因此,研究人員正在積極努力擴充套件大型語言模型,以納入多模態資訊處理能力。視覺 - 語言模型(VLMs)如 GPT-4、LLaMA-Adapter 和 LLaVA 已經被開發出來,以增強 LLMs 的視覺理解能力。然而,先前的研究主要嘗試以類似的方法獲得高效的 VLMs,即在保持基於注意力的 Transformer 結構不變的情況下減少基礎語言模型的引數或視覺 token 的數量。本文提出了一個不同的視角:直接採用狀態空間模型(SSM)作為骨幹網路,得到了一種線性計算複雜度的 MLLM。此外,本文還探索和研究了各種模態融合方案,以建立一個有效的多模態 Mamba。具體來說,本文采用 Mamba 語言模型作為 VLM 的基礎模型,它已經顯示出可以與 Transformer 語言模型競爭的效能,但推理效率更高。測試顯示 Cobra 的推理效能比同引數量級的 MobileVLM v2 3B 和 TinyLLaVA 3B 快 3 倍至 4 倍。即使與引數數量更多的 LLaVA v1.5 模型(7B 引數)相比,Cobra 仍然可以在引數數量約為其 43% 的情況下在幾個基準測試上實現可以匹配的效能。 圖 Cobra 和 LLaVA v1.5 7B 在生成速度上的 Demo- 調查了現有的多模態大型語言模型(MLLMs)通常依賴於 Transformer 網路,這表現出二次方的計算複雜度。為了解決這種低效問題,本文引入了 Cobra,一個新穎的具有線性計算複雜度的 MLLM。
- 深入探討了各種模態融合方案,以最佳化 Mamba 語言模型中視覺和語言資訊的整合。透過實驗,本文探索了不同融合策略的有效性,確定了產生最有效多模態表示的方法。
- 進行了廣泛的實驗,評估 Cobra 與旨在提高基礎 MLLM 計算效率的並行研究的效能。值得注意的是,Cobra 甚至在引數更少的情況下實現了與 LLaVA 相當的效能,突顯了其效率。
- 原文連結:https://arxiv.org/pdf/2403.14520v2.pdf
- 專案連結:https://sites.google.com/view/cobravlm/
- 論文標題:Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference
Cobra 採用了經典的視覺編碼器、連線兩個模態的投影器和 LLM 語言主幹組成的 VLM 結構。LLM 主幹部分採用了 2.8B 引數預訓練的 Mamba 語言模型,該模型在 600B token 數量的 SlimPajama 資料集上進行了預訓練並經過了對話資料的指令微調。與 LLaVA 等工作不同的是,Cobra 採用了 DINOv2 和 SigLIP 融合的視覺表徵,透過將兩個視覺編碼器的輸出拼接在一起送入投影器,模型能夠更好的捕捉到 SigLIP 帶來的高層次的語義特徵和 DINOv2 提取的低層次的細粒度影像特徵。最近的研究表明,對於基於 LLaVA 的現有訓練正規化(即,只訓練投影層的預對齊階段和 LLM 骨幹的微調階段各一次),預對齊階段可能是不必要的,而且微調後的模型仍處於欠擬合狀態。因此,Cobra 捨棄了預對齊階段,直接對整個 LLM 語言主幹和投影器進行微調。這個微調過程在一個組合資料集上隨機抽樣進行兩個週期,該資料集包括:- 在 LLaVA v1.5 中使用的混合資料集,其中包含總計 655K 視覺多輪對話,包括學術 VQA 樣本,以及 LLaVA-Instruct 中的視覺指令調優資料和 ShareGPT 中的純文字指令調優資料。
- LVIS-Instruct-4V,其中包含 220K 張帶有視覺對齊和上下文感知指令的圖片,這些指令由 GPT-4V 生成。
- LRV-Instruct,這是一個包含 400K 視覺指令資料集,覆蓋了 16 個視覺語言任務,目的是減輕幻覺現象。
整個資料集大約包含 120 萬張圖片和相應的多輪對話資料,以及純文字對話資料。實驗部分,本文對提出的 Cobra 模型和開源的 SOTA VLM 模型在基礎 benchmark 上進行了比較,並對比了與同量級基於 Transformer 架構的 VLM 模型的回答速度。同時,Cobra 也與更多的模型在 VQA-v2,GQA,VizWiz,TextVQA 四個開放 VQA 任務以及 VSR,POPE 兩個閉集預測任務,共 6 個 benchmark 上進行了分數對比。 圖 在 Benchmark 上和其他開源模型的對比此外 Cobra 也給出了兩個 VQA 示例以定性說明 Cobra 在物體的空間關係認知和減輕模型幻覺兩個能力上的優越性。 圖 Cobra 和其他基線模型在物體空間關係判斷的示例 圖 Cobra 和其他基線模型在關於視覺錯覺現象的示例在示例中,LLaVA v1.5 和 MobileVLM 均給出了錯誤答案,而 Cobra 則在兩個問題上都做出了準確的描述,尤其在第二個例項中,Cobra 準確的識別出了圖片是來自於機器人的模擬環境。本文從效能和生成速度這兩個維度對 Cobra 採取的方案進行了消融研究。實驗方案分別對投影器、視覺編碼器、LLM 語言主幹進行了消融實驗。 投影器部分的消融實驗結果顯示,本文采取的 MLP 投影器在效果上顯著優於致力於減少視覺 token 數量以提升運算速度的 LDP 模組,同時,由於 Cobra 處理序列的速度和運算複雜度均優於 Transformer,在生成速度上 LDP 模組並沒有明顯優勢,因此在 Mamba 類模型中使用透過犧牲精度減少視覺 token 數量的取樣器可能是不必要的。視覺編碼器部分的消融結果表明,DINOv2 特徵的融合有效的提升了 Cobra 的效能。而在語言主幹的實驗中,未經過指令微調的 Mamba 語言模型在開放問答的測試中完全無法給出合理的答案,而經過微調的 Mamba 語言模型則可以在各類任務上達到可觀的表現。本文提出了 Cobra,它解決了現有依賴於具有二次計算複雜度的 Transformer 網路的多模態大型語言模型的效率瓶頸。本文探索了具有線性計算複雜度的語言模型與多模態輸入的結合。在融合視覺和語言資訊方面,本文透過對不同模態融合方案的深入研究,成功最佳化了 Mamba 語言模型的內部資訊整合,實現了更有效的多模態表徵。實驗表明,Cobra 不僅顯著提高了計算效率,而且在效能上與先進模型如 LLaVA 相當,尤其在克服視覺幻覺和空間關係判斷方面表現出色。它甚至顯著減少了引數的數量。這為未來在需要高頻處理視覺資訊的環境中部署高效能 AI 模型,如基於視覺的機器人反饋控制,開闢了新的可能性。