如何高效橋接視覺和語言,位元組&中大提出全新多模態大模型聯結器ParGo

机器之心發表於2025-01-11

圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

在多模態大語言模型(MLLMs)的發展中,視覺 - 語言聯結器作為將視覺特徵對映到 LLM 語言空間的關鍵元件,起到了橋樑作用。因此,它幾乎成為了所有多模態大語言模型中不可或缺的結構之一。然而,如何高效地將視覺特徵對映到 LLM 的探索還有很大提升空間。

位元組團隊與中大合作提出的 ParGo 模型,透過巧妙地融合全域性視野和區域性細節,在多項權威基準測試(Benchmark)中表現出色,成功入選了 AAAI 2025。

圖片

  • 論文地址:https://arxiv.org/abs/2408.12928

  • 程式碼地址: https://github.com/bytedance/ParGo

過去,大多數研究主要依賴線性投影或多層感知機(MLP)將視覺特徵直接對映,這種方法難以有效控制輸入 LLMs 的視覺 token 數量,特別是在處理細粒度特徵時,導致計算成本極高。另一類基於注意力機制的方法(如 Q-former)透過注意力操作將影像特徵投射為固定數量的視覺 token,雖然大幅減少了計算成本,但往往使得生成的 token 集中在影像的顯著區域,忽略了細節部分。

為了解決這一問題,ParGo 提出了一種創新的全域性 - 區域性投影器來連線視覺與文字,透過結合全域性視野和區域性細節的雙重視角,克服了傳統方法對顯著區域的過度聚焦,使得視覺特徵能夠在更細膩的層面上得到全面展現,同時有能有效控制過長的 token 帶來的計算成本的升高,進而實現了視覺特徵和 LLM 的高效連線。

圖片

全域性 + 區域性視角聯合

方法

ParGo (Partial-Global) 採用兩種型別的可學習 token, 利用 attention 機制,同時從區域性和全域性視角將視覺特徵對映到大語言模型(LLM)中。該框架包含兩個關鍵模組:Partial-Global Perception Block (PGP) 和 Cascaded Partial Perception Block (CPP)。這兩個模組共同作用,實現了高效的視覺 - 語言連線,既捕捉了影像的全域性資訊,又能精細地提取區域性特徵,從而提升了多模態大語言模型的效果。

圖片

圖 1: ParGo 模型框架圖

核心模組

  • Partial-Global Perception Block (PGP)

在 ParGo 中,視覺編碼器的特徵被對映為兩種不同型別的 token:Partial token 和 Global token,從而能夠分別提取影像的區域性和全域性資訊。具體來說:

  • Partial tokens:每個 token 僅與部分視覺特徵進行互動,專注於影像的區域性資訊

  • Global tokens:全域性 token 則與所有視覺特徵進行互動,捕捉影像的全域性資訊

ParGo 採用了一種新的交叉注意力掩碼設計(Partial-Global Attention Mask),如圖 1 (b) 所示,來處理輸入的視覺特徵。該設計能夠同時輸出包含影像區域性和全域性資訊的特徵,即 Partial tokens 和 Global tokens。具體的公式如下:

圖片

  • Cascaded Partial Perception Block (CPP)

此外,考慮到不同區域性物體在影像中的佔比不同,為了進一步增強對多種區域性資訊的完整捕獲能力,ParGo 在 Partial-Global Perception 模組之前引入了 Cascaded Partial Perception (CPP) 模組。

CPP 模組 的核心是一個帶有特殊設計掩碼的自注意力機制,如圖 1 (b) 中的 Cascaded Partial Attention Mask。隨著層數的增加,每個 Partial token 能夠訪問到更多的相鄰 token,從而逐步擴充套件其感知範圍。該過程可以透過以下公式表示:

圖片

實驗效果

論文重點對比了當前不同型別的 Projector(投射器),在一些通用的 MLLM 的 benchmark 的效果,均取得了優異的效果。

圖片

為了進一步進行公平對比,論文在相同資料集和實驗引數下,比較了三種主流的投影器(Projector)。結果顯示,ParGo 依然取得了最佳的效能表現。另外,在不同基座 LLM 下,ParGo 均表現良好,體現出了更好的泛化效能。

圖片

不同 Projector 之間的比較

圖片

換用不同的基座 LLM 的比較

案例分析

為了能進一步展現 ParGo 在控制 token 數量的情況下,依然能做到細粒度和空間關係的準確捕獲,作者對比了 ParGo 和 Q-former 這兩種均是基於注意力機制的 Projector(投射器)在相同 tokens 下的效果:

圖片

文字識別更加準確

圖片

影像的細節描述程度更好

圖片

區域性元素識別效果更好

結論

本研究提出了 ParGo(區域性 - 全域性投影器),一種創新的視覺 - 語言投影方案,旨在提升多模態大語言模型(MLLMs)中視覺和語言模態的對齊效果。ParGo 透過結合區域性 token 和全域性 token,並使用精心設計的注意力掩碼分別提取區域性和全域性資訊,在控制 token 數量的同時增強了區域性區域之間的關係建模,充分考慮了影像的細節與全域性視角,從而克服了傳統方法中忽視細節的問題。

相關文章