僅縮小視覺Token位置編碼間隔,輕鬆讓多模態大模型理解百萬Token!清華大學,香港大學,上海AI Lab新突破

机器之心發表於2025-01-15
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文共同一作為葛俊岐 (清華大學本科生),陳子熠 (清華大學本科生),林錦濤 (香港大學博士生),祝金國 (上海 AI Lab 青年研究員)。本文的通訊作者是朱錫洲,他的研究方向是視覺基礎模型和多模態基礎模型,代表作有 Deformable DETR、DCN v2 等。

隨著語言大模型的成功,視覺 - 語言多模態大模型 (Vision-Language Multimodal Models, 簡寫為 VLMs) 發展迅速,但在長上下文場景下表現卻不盡如人意,這一問題嚴重製約了多模態模型在實際應用中的潛力。

為解決這一問題,清華大學,香港大學和上海 AI Lab 聯合提出了一種新的用於多模態大模型的位置編碼方法 ——Variable Vision Position Embedding (V2PE) ,取得多模態大模型在長上下文場景下的新突破。
圖片
  • 論文地址:https://arxiv.org/abs/2412.09616

  • 專案主頁:https://zzdhybthu.github.io/V2PE.github.io/

  • 開原始碼:https://github.com/OpenGVLab/V2PE

位置編碼是多模態大模型中的關鍵技術,用於讓模型理解輸入序列的相對位置關係。它使得 VLMs 能夠理解詞語在句子中的位置,並識別影像塊在原圖中的二維位置。然而,現有的多模態模型通常在影像 token 上沿用文字模型的位置編碼方式,這並非最優方案。

V2PE 提出了一種為視覺 token 分配可變位置增量的新方法,有效解決了傳統位置編碼在處理超長上下文任務時的效能瓶頸問題。透過避免位置編碼超出模型訓練上下文視窗的限制,V2PE 顯著提升了模型在 32K 至 1M 長度超長上下文任務中的表現。相比傳統位置編碼的模型,採用 V2PE 的模型在這些任務中實現了突破性改進,甚至超越了最先進的閉源大模型。
圖片
V2PE 工作有以下貢獻:
  • 構建了一個用於 VLMs 長上下文訓練和評估的混合資料集。研究團隊透過這一資料集發現,直接將 LLM 的位置編碼機制應用於視覺 token 是次優選擇。

  • 提出了可變視覺位置資訊編碼 (V2PE),一種創新的位置編碼策略,透過為視覺 token 分配可變且較小的增量,大幅提升了 VLMs 對長多模態上下文的理解和推理能力。

  • 將 V2PE 方法和擴充套件訓練資料應用於開源視覺模型 InternVL2-2B, 微調後的模型在統一多模態基準測試和長上下文多模態任務中表現優異,成功處理長達 1M token 的序列,展現了卓越的長上下文處理能力。

可變視覺位置編碼
突破視覺 - 語言模型在長上下文場景中的新邊界

在人工智慧領域,視覺 - 語言模型 因其在多模態任務中的出色表現而備受關注。然而,在處理影片、高解析度影像或長篇圖文文件等長上下文場景時,其泛化能力卻顯著下降,這限制了它們在實際應用中的潛力,並影響了使用者體驗的進一步提升。

V2PE 旨在解決的核心問題在於:為什麼 VLMs 在長上下文場景下表現不佳,以及如何提升它們在長序列多模態理解與推理上的能力?

為了研究 VLMs 為什麼在長上下文場景表現不佳,研究團隊透過構建大規模的長上下文多模態資料集,系統地評估和分析 VLMs 的能力,在這一過程中,他們意識到位置編碼策略在 VLMs 的效能中起著至關重要的作用。

傳統的 VLMs 位置編碼通常不區分文字 token 和影像 token,並在訓練中使用固定的編碼規則。然而,文字 token 屬於一維資料,位置編碼僅需傳達先後順序;影像 token 則為二維資料,位置編碼需傳遞影像塊的空間位置資訊,還要考慮多解析度下縮圖與子影像塊的對應關係。此外,當模型處理超出訓練上下文視窗的長序列時,固定位置編碼會超出模型已知範圍,導致推理能力受限。

因此,作者提出了 Variable Visual Position Encoding (V2PE),這是一種新穎的位置編碼方法,專門針對視覺 - 語言模型(VLMs)中的長上下文場景。V2PE 透過為視覺 token 分配更小的、可變的位置增量,有效地管理長多模態序列。

增強的長上下文多模態資料集
圖片
作者引入了兩個增強的長上下文多模態資料集:Long Visual Question Answering (Long-VQA) 和 Long Multimodal Retrieval (Long-MR)。旨在提升 VLMs 的長上下文能力並建立評估框架。
  • Long-VQA 資料集擴充套件了 17 個被廣泛採用的資料集,將內容從短序列擴充套件到包含高達 32K token 的序列。任務涵蓋常識推理、事實知識和解釋文字和視覺資訊。

  • Long-MR 資料集受多模態大海撈針 benchamrk -- MM-NIAH 的啟發,透過在交錯的文字影像中檢測目標影像或段落,評估 VLMs 處理超長上下文的能力。

可變視覺位置編碼

位置編碼在視覺 - 語言模型中的作用

位置編碼是 Transformer 架構中的基本組成部分,它透過為 token 提供位置資訊來捕獲序列關係。位置編碼通常涉及兩個步驟:位置索引推導圖片和位置嵌入計算圖片
  • 位置索引推導:為每個 token圖片分配位置索引圖片

  • 位置嵌入計算:將這些索引轉換為影響注意力機制的位置嵌入。

可變位置索引推導

作者提出了一種針對模態特定的遞迴函式,為文字和視覺 token 分配不同的位置索引:
圖片
其中圖片是一個小於 1 的增量,用於減少視覺 token 的位置索引增加速率。在訓練過程中,圖片可以從一組分數值中動態選擇,以適應不同的輸入長度和複雜性。

這種方法與傳統的長上下文方法相比具有幾個優勢:

1. V2PE 保留了 VLMs 中的所有視覺 token,保留了視覺內容的豐富性和細節。
2. V2PE 允許 VLMs 透過在訓練期間動態選擇圖片來適應任意間隔的位置索引,避免了位置編碼外推引起的不準確。

長上下文能力顯著提升

經過一系列的實驗和分析,研究團隊取得了顯著的成果。透過引入 Variable Visual Position Encoding (V2PE) 和增強的長上下文多模態資料集,研究團隊得到了以下幾個重要的發現:

圖片對模型上下文能力的影響

圖片
在上下文長度 32k 以內的資料上訓練模型,在 64k 以內,多種長度的基準測試上進行測試。實驗的結果表明,在測試長度超出訓練的上下文長度時,模型效果會顯著下降,但選用更小的增量圖片可以有效緩解這一現象。
  • 在 1M 上下文長度下的表現提升

圖片
作者分別在 32k 和 256k 的訓練資料上微調模型,並在長達 1M 的多種上下文長度上進行測試。實驗結果表明,V2PE 在長上下文場景下的表現明顯優於不加 V2PE 的模型,也優於使用插值方法的模型,甚至能超越先進的閉源大模型。
圖片
此外,作者將訓練好的 V2PE 模型與其他視覺 - 語言模型在多種基準測試進行了對比,結果表明,V2PE 在長上下文多模態任務上的表現優於其他模型,證明了 V2PE 的有效性。
圖片
圖片
消融實驗中,作者將 V2PE 方法與 token 壓縮的方法以及在訓練時固定視覺 token 的位置編碼增量的方法進行了對比,證明了 V2PE 的優勢。

在對注意力圖的分析中,作者關注注意力圖的尾部,即對應序列末端的問題部分的注意力圖。作者發現,隨著圖片的減小,模型能更好地把注意力集中在問題對應的答案附近,證明了 V2PE 能夠有效地提升模型將注意力對齊到輸入序列中的關鍵部分的能力。
圖片
V2PE 的提出,為視覺 - 語言模型在長上下文場景下的表現提供了新的思路。透過為視覺 token 分配可變的位置增量,V2PE 有效地解決了位置編碼超出模型訓練上下文視窗的問題,提升了模型在長上下文場景下的表現。

作者相信,V2PE 的提出將為視覺 - 語言模型的發展帶來新的機遇,為模型在長上下文多模態任務中的應用提供更多可能性。

相關文章