AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
論文地址:https://arxiv.org/abs/2412.09616
專案主頁:https://zzdhybthu.github.io/V2PE.github.io/
開原始碼:https://github.com/OpenGVLab/V2PE
構建了一個用於 VLMs 長上下文訓練和評估的混合資料集。研究團隊透過這一資料集發現,直接將 LLM 的位置編碼機制應用於視覺 token 是次優選擇。
提出了可變視覺位置資訊編碼 (V2PE),一種創新的位置編碼策略,透過為視覺 token 分配可變且較小的增量,大幅提升了 VLMs 對長多模態上下文的理解和推理能力。
將 V2PE 方法和擴充套件訓練資料應用於開源視覺模型 InternVL2-2B, 微調後的模型在統一多模態基準測試和長上下文多模態任務中表現優異,成功處理長達 1M token 的序列,展現了卓越的長上下文處理能力。
Long-VQA 資料集擴充套件了 17 個被廣泛採用的資料集,將內容從短序列擴充套件到包含高達 32K token 的序列。任務涵蓋常識推理、事實知識和解釋文字和視覺資訊。
Long-MR 資料集受多模態大海撈針 benchamrk -- MM-NIAH 的啟發,透過在交錯的文字影像中檢測目標影像或段落,評估 VLMs 處理超長上下文的能力。
位置索引推導:為每個 token分配位置索引。
位置嵌入計算:將這些索引轉換為影響注意力機制的位置嵌入。
對模型上下文能力的影響
在 1M 上下文長度下的表現提升