LLaVA-Mini來了!每張影像所需視覺token壓縮至1個,兼顧效率記憶體

机器之心發表於2025-02-06

圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

以 GPT-4o 為代表的實時互動多模態大模型(LMMs)引發了研究者對高效 LMM 的廣泛關注。現有主流模型透過將視覺輸入轉化為大量視覺 tokens,並將其嵌入大語言模型(LLM)上下文來實現視覺資訊理解。然而,龐大的視覺 token(vision token)量顯著增加了 LMMs 的計算複雜度和推理延遲,尤其在高解析度影像或影片處理的場景下,效率問題愈加突出。因此,提高多模態大模型的計算效率成為實現低延時實時互動的核心挑戰之一。

圖片
為了應對這一挑戰,中國科學院計算技術研究所自然語言處理團隊創新性的提出了高效多模態大模型 ——LLaVA-Mini。透過對 LMMs 中視覺 tokens 處理過程的可解釋性分析,LLaVA-Mini 將每張影像所需的視覺 tokens 壓縮至 1 個,並在確保視覺理解能力的同時顯著提升了影像和影片理解的效率,包括:計算效率提升(FLOPs 減少 77%)、響應時延降低(響應延時降至 40 毫秒)、視訊記憶體佔用減少(從 360 MB / 影像降至 0.6MB / 影像,支援 24GB GPU 上進行長達 3 小時的影片處理)。
圖片
  • 論文題目:LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token
  • 論文連結:https://arxiv.org/abs/2501.03895
  • 開原始碼:https://github.com/ictnlp/LLaVA-Mini
  • 模型下載:https://huggingface.co/ICTNLP/llava-mini-llama-3.1-8b

多模態大模型如何理解視覺 Tokens?

為了在減少視覺 token 的同時保持視覺理解能力,研究者首先分析了 LMMs 如何處理和理解大量視覺 token。分析集中在 LLaVA 架構,特別從注意力機制的角度探討了視覺 token 的作用及其數量對 LMMs 效能的影響。具體而言,實驗評估了視覺 token 在 LMMs 不同層中的重要性,涵蓋了多種 LMMs,以識別不同規模和訓練資料集的模型之間的共性。
圖片
視覺 token 在 LMMs 不同層中獲取的注意力權重
圖片
LMMs 中不同層的注意力視覺化

分析發現:

1. 視覺 token 在前幾層中的重要性較高:在 LMMs 的前幾層,視覺 token 獲得了更多的注意力,但隨著層數增加,注意力迅速轉向指令 token(文字),超過 80% 的注意力集中在指令 token 上。這表明,視覺 token 主要在前層發揮作用,文字 token 透過注意力機制從視覺 token 中獲取視覺資訊,而後續層則依賴於已經融合視覺資訊的指令 token 來生成回覆。
2. 大部分視覺 token 在前幾層中被關注:如上圖注意力視覺化所示,早期層中幾乎所有視覺 token 都受到均勻關注,而在後期層,模型則集中注意力於少數幾個視覺 token。這表明,直接減少所有層中的視覺 token 數量不可避免地會導致視覺資訊的丟失。

更多分析請參考論文。透過預先分析,研究者發現視覺 token 在 LMMs 的早期層中起著至關重要的作用,在這一階段,文字 token 透過關注視覺 token 融合視覺資訊。這一發現為 LLaVA-Mini 極限壓縮視覺 token 的策略提供了重要的指導。

LLaVA-Mini 介紹

LLaVA-Mini 使用視覺編碼器將影像編碼為若干視覺 token。為了提升效率,LLaVA-Mini 透過壓縮模組大幅減少輸入 LLM 底座的視覺 token 數量。為了在壓縮過程中保留視覺資訊,基於先前的研究發現,視覺 token 在早期層中對於融合視覺資訊至關重要,LLaVA-Mini 在 LLM 底座之前引入了模態預融合模組,將視覺資訊融入文字 token 中,從而確保視覺理解能力。
圖片
視覺 token 壓縮

LLaVA-Mini 透過基於查詢的壓縮模組(query-based compression)減少輸入 LLM 底座的視覺 token 數量。為學習視覺 token 的壓縮,LLaVA-Mini 引入若干可學習的壓縮查詢(query),透過交叉注意力機制與所有視覺 token 互動,選擇性提取關鍵的視覺資訊,生成壓縮後的視覺 token。當壓縮查詢數量為 1 時,LLaVA-Mini 僅用一個視覺 token 表示一張影像。

模態預融合

視覺 token 的壓縮不可避免地會丟失部分視覺資訊。為了在壓縮過程中儘可能保留更多的視覺資訊,LLaVA-Mini 在 LLM 底座前引入模態預融合模組,文字 token 預先融合來自所有視覺 token 的相關視覺資訊。基於之前的發現,視覺文字資訊融合通常發生在 LLM 底座的早期層,而 LLaVA-Mini 將這種融合過程顯示地提取到 LLM 外部進行,從而減少計算量。

最終,LLaVA-Mini 將輸入 LLM 底座的 token 數量從 “576 個視覺 token+N 個文字 token” 壓縮至 “1 個視覺 token+ N 個模態融合 token”。透過此,LLaVA-Mini 能夠更高效地完成影像理解和影片理解。

實驗結果

在本文的實驗中,研究者在 11 個影像理解基準和 7 個視覺理解基準上評估了 LLaVA-Mini 的效能以及效率優勢,以下是所得的關鍵實驗結果。

影像理解評估
圖片
如上表所示,研究者在 11 個基準測試上比較了 LLaVA-Mini 和 LLaVA-v1.5。結果表明,LLaVA-Mini 僅使用 1 個視覺 token(壓縮率 0.17%),遠低於 LLaVA-v1.5 的 576 個視覺 token,取得與 LLaVA-v1.5 相當的影像理解能力。

影片理解評估
圖片
如上表所示,LLaVA-Mini 在影片理解上優於目前先進的影片 LMMs。這些影片 LMMs 使用大量視覺 token 表示每幀(224 或 576),受限於上下文長度,僅能提取 8-16 幀,可能導致部分影片資訊丟失。相比之下,LLaVA-Mini 透過 1 個視覺 token 表示每張影像,能夠以每秒 1 幀的速度提取影片幀,從而在影片理解上表現更佳。

長影片理解評估
圖片
研究者進一步將 LLaVA-Mini 與先進的長影片 LMMs(能夠處理超過 100 幀的影片)在長影片基準 MLVU 和 EgoSchema 上進行比較。

如上表所示,LLaVA-Mini 在長影片理解上具有顯著優勢。透過將每幀表示為一個視覺 token,LLaVA-Mini 在推理時能夠輕鬆擴充套件到更長的影片,並且透過 token 之間的位置編碼隱式建模時序關係。特別地,LLaVA-Mini 僅在少於 1 分鐘(< 60 幀)的影片上進行訓練,且在推理時能夠處理超過 2 小時(> 7200 幀)的長影片

LLaVA-Mini 效率提升
圖片
效率優勢是 LLaVA-Mini 的一大亮點。如上圖所示,與 LLaVA-v1.5 相比,LLaVA-Mini 顯著減少了 77% 的計算負載,實現了 2.9 倍的加速。LLaVA-Mini 的響應延遲低於 40 毫秒,這對於開發低延遲實時 LMMs 至關重要。
圖片
影片處理是 LMMs 面臨的另一個挑戰,特別是在視訊記憶體消耗方面。上圖展示了 LMMs 在處理不同長度影片時的記憶體需求。以往的方法每張影像需要約 200-358 MB 的記憶體,使得它們在 40GB GPU 上僅能處理約 100 幀。相比之下,LLaVA-Mini 僅需 0.6 MB 記憶體即可處理每張影像,理論上可在 24GB 記憶體的 RTX 3090 上支援處理超過 10,000 幀的影片。

視覺 token 壓縮效果
圖片
為驗證 LLaVA-Mini 將圖片壓縮成 1 個視覺 token 的有效性,上圖視覺化了壓縮過程中的交叉注意力。在不同型別和風格的影像(如照片、文字、截圖和卡通圖)中,LLaVA-Mini 的壓縮展現了強大的可解釋性,能夠有效地從影像中提取關鍵的視覺資訊。

總結

LLaVA-Mini 是一個統一的多模態大模型,能夠高效地支援影像、高解析度影像和影片的理解。LLaVA-Mini 在影像和影片理解方面表現出色,同時在計算效率、推理延遲和記憶體使用上具有優勢,促進了高效 LMM 的實時多模態互動。

不過,LLaVA-Mini 也存在一些侷限,主要表現在處理一些 OCR 等精細化視覺任務時,壓縮成 1 個視覺 token 勢必會影響其效能。但由於 LLaVA-Mini 的靈活性,在使用時可根據具體場景設定壓縮後的視覺 token 數量,從而在效能和效率中取得權衡。

相關文章