AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文主要作者來自 LMMs-Lab 團隊與新加坡南洋理工大學。共同一作中,張培源是南洋理工大學研究助理,張愷宸是南洋理工大學四年級本科生,李博為南洋理工大學三年級博士生,指導教師為 MMLab@NTU 劉子緯教授。LMMs-Lab 是一個由學生、研究人員和教師組成的團隊,致力於多模態模型的研究,主要研究方向包括多模態模型的訓練與全面評估,此前的工作包括多模態測評框架 lmms-eval 等。
為什麼說理解長影片難如 “大海撈針”?
現有的 LMMs 在處理長影片時面臨的一個主要挑戰是視覺 token 數量過多。比如,LLaVA-1.6 對單張圖片就能生成 576 到 2880 個視覺 token。影片幀數越多,token 數量也就更多。雖然 BLIP2,LLaMA-VID, Chat-UniVI 等工作 透過改動 ViT 和語言模型之間的連線層來減少視覺 token 數量,但仍然不能處理特別多的幀數。
此外,缺乏高質量的長影片資料集也是一大瓶頸。現有訓練資料集大多是 1 分鐘內的短影片,即使有長影片,標註的文字對僅限於影片的幾個幀,缺乏密集的監督訊號。
近日 LMMs-Lab, 南洋理工大學等機構的研究團隊推出了 LongVA 長影片模型, 它可以理解超過千幀的影片資料,超越了當前一眾開源影片多模態模型的效能!
論文連結:https://arxiv.org/abs/2406.16852
演示地址:https://longva-demo.lmms-lab.com/
程式碼地址:https://github.com/EvolvingLMMs-Lab/LongVA
作者團隊首次在多模態領域提出長上下文遷移(Long Context Transfer),這一技術使得多模態大模型(LMMs)能夠在不進行長影片訓練的情況下,處理和理解超長影片。他們的新模型 LongVA 能夠處理 2000 幀或者超過 20 萬個視覺 token, 在影片理解榜單 Video-MME 上實現了 7B 規模的 SoTA。在最新的長影片 MLVU 榜單上, LongVA 更是僅次於 GPT4-o 的最強模型!
LongVA 的作者總結了下面這張圖, 可以看到,目前的多模態大模型在長影片理解上還不盡如人意,能夠處理的幀數限制了長影片的處理和理解。為了處理更多的幀,LLaMA-VID 等工作不得不急劇壓縮單張幀對應的 token 數量。
長上下文遷移
針對處理長影片面臨的挑戰,研究團隊提出了 “長上下文遷移” 這一全新思路。他們認為, 目前長影片大模型的多幀瓶頸不在如如何從 Vision Encoder 抽取壓縮的特徵上面(下圖(a)), 而在於擴充套件模型的長上下文能力上。
他們發現,透過簡單地擴充套件語言模型的在文字上的上下文長度,他們能成功地將這種能力傳遞到視覺模態上,而無需進行任何長影片訓練。具體做法是,首先透過長文字資料訓練語言模型,然後利用短影像資料進行模態對齊。他們發現在這樣訓練的模型在測試時就可以直接理解多幀的影片, 省去了長影片訓練的必要性。
在長語言模型訓練過程中,作者團隊使用了 Qwen2-7B-Instruct 作為底座,並透過長上下文訓練將其文字上下文長度擴充套件到 224K。訓練過程中使用了 FlashAttention-2、Ring Attention、activation checkpoint 和 parameter offload 等多種最佳化策略,以提高訓練效率和記憶體利用率。
在模態對齊階段,作者設計了一個名為 “UniRes” 的統一編碼方案,用於同時處理影像和影片。UniRes 方案與 LLaVA-1.6 中的 AnyRes 編碼方案類似,但去處了 base image 部分,針對每個 grid 分別一維化,並在每個網格內進行了 2x2 特徵池化。這種方法確保了在將影像資料擴充套件到影片時,能夠保持一致的表示形式。
LongVA 採用了 “短上下文訓練,長上下文測試” 的策略,也就是讓模型在模態對齊階段僅使用影像 - 文字資料進行訓練,而在測試直接利用長影片進行處理測試。這種策略有效地展示了長上下文遷移的現象,使得模型能夠在未進行長影片訓練的情況下,可以獲得理解和處理長影片的能力。
LongVA 的超強效能
目前還沒有評估 LMMs 長影片視覺上下文長度的基準測試。為了解決這一問題,LongVA 團隊將大海撈針測試從文字擴充套件到視覺,並提出了 Visual Needle-In-A-Haystack (V-NIAH) 基準測試。
在 V-NIAH 測試中,團隊設計了 5 個影像問答問題,將每個問題作為單幀插入到數小時的電影中,並以 1 幀 / 秒的頻率取樣影片作為視覺輸入。這些 “針” 的影像來源於現有的視覺問答資料集或 AI 生成的影像,這樣是為了確保模型無法僅透過語言知識來回答問題。每個問題都包含一個 “定位提示”,使得正確的系統或人類能夠從影片中定位 “針” 幀並回答問題。
V-NIAH 測試結果顯示,LongVA 在 2000 幀(每幀 144 個 token)以內的視覺大海撈針測試幾乎全對, 在 3000 幀的尺度上也保持了不錯的正確率 。有趣的是,和語言模型類似, 他們發現 LongVA 在 V-NIAH 上也存在一定程度的 Lost-In-The-Middle 現象。
在最近騰訊,中科大等機構提出的 Video-MME 榜單上, LongVA 排名第七並且達到了 7B 模型的 SoTA。
https://video-mme.github.io/home_page.html#leaderboard
在智源聯合北郵、北大和浙大等多所高校推出的 MLVU 基準測試中, LongVA 更是僅次於 GPT-4o, 位列最強的開源模型。
https://github.com/JUNJIE99/MLVU/
作者團隊在論文中也附上了一些效果展示。
更多細節, 感興趣的讀者可以檢視原論文。