AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文作者來自位元組跳動,南洋理工大學 S-Lab 和北京郵電大學。其中第一作者為南洋理工大學 S-Lab 的博士生 Yuanhan Zhang (https://zhangyuanhan-ai.github.io/),主要研究領域為將基礎模型適配於開放世界。本文的指導老師為 Ziwei Liu 教授 ((https://liuziwei7.github.io/) 和 Chunyuan Li 博士 (https://chunyuan.li/), 其中 Chunyuan Li 領導了這個專案。本文其他作者包括北京郵電大學 Jinming Wu,南洋理工大學 S-Lab 的博士生 Bo Li, 位元組跳動研究員 Wei Li, Zejun Ma.
影片多模態大模型(LMMs)的發展受限於從網路獲取大量高質量影片資料。為解決這一問題,我們提出了一種替代方法,建立一個專為影片指令跟隨任務設計的高質量合成資料集,名為 LLaVA-Video-178K。
該資料集包含詳細的影片的描述、開放式問答(QA)、和多項選擇題。透過在該資料集和現有的視覺指令微調資料上訓練模型,我們推出了新的影片 LMM——LLaVA-Video。實驗表明,LLaVA-Video 在多個影片基準上表現出色,展示了該資料集的有效性。
論文標題:VIDEO INSTRUCTION TUNING WITH SYNTHETIC DATA 論文連結:https://arxiv.org/pdf/2410.02713 專案主頁:https://llava-vl.github.io/blog/2024-09-30-llava-video/
先來看一組互動性演示,瞭解 LLaVA-Video 在真實世界中與人互動:
1.LLaVA-Video 教我下載 "TikTok":2.LLaVA-Video 描述我的客廳,並指導我找健康飲料:
影片指令跟隨資料合成
一個高質量的影片指令跟隨資料集對於開發有效的影片語言模型至關重要。我們確定了構建此類資料集的關鍵因素:確保影片內容和語言註釋的豐富性和多樣性。我們對現有的影片基準進行了全面調查,涵蓋了各種公共影片描述和問答資料集,然後確定了十個獨特的影片來源,這些來源為超過 40 個影片語言基準提供了資料。從每個來源中,我們選擇具有顯著時間動態的影片。為了保持註釋的多樣性,我們建立了一條能夠生成任何長度影片的詳細描述的流水線。此外,我們定義了 16 種問題型別,指導 GPT-4o 生成問答對,以訓練影片語言模型的感知和推理能力。
影片來源
我們注意到,儘管不同的影片語言資料集側重於各種影片理解任務,但大多數都來源於十個主要影片來源,這些來源提供了廣泛的來自不同網站、拍攝視角和題材的影片。下圖展示了這十個我們選擇的影片資料集與其他現有影片語言資料集之間的關係。進一步,我們從這些來源中選擇了動態影片,詳細的選擇邏輯在論文中描述。
我們使用的 10 個影片來源與其他現有影片語言資料集的關係。
自動生成影片詳細描述
對於選定的影片,我們使用 GPT-4o 系統地描述其內容。我們從每秒一幀的頻率開始取樣影片。然而,由於 GPT-4o 的輸入大小限制,我們無法一次性使用影片中所有采樣的幀。因此,我們按順序描述影片,如下圖所示。我們在三個不同級別上建立描述,詳細如下,簡單來說,第一個層級(leve-1)指的是針對 10s 區間的影片描述,第二個層級(level-2)指的是針對 30s 區間的影片描述,第三個層級(level-3)指的是針對整個影片的描述。
影片描述的生成流程:透過遞迴方法對三個不同的影片描述層級(leve-1,level-2,level-3)進行描述。`t` 是時間區間在其自身層級的索引,`T` 是最後一個時間區間的索引。(a) 我們根據 level-1 的 `t` 內收集的幀、level-1 的 `t-1` 的描述,以及最近的一次 level-2 描述(如果有的話),來生成 level-1 時間區間 `t` 的影片描述。(b) 我們使用 level-2 的 `t-1` 的描述,以及最近的三個 level-1 描述,生成 level-2 的時間區間 `t` 的描述, (c) 我們基於最近一次 level-2 的描述和最近的一次 level-1 的描述,生成 level-3 的 `T` 的描述。
自動生成影片問答
除了詳細的影片描述,我們的資料集中還包含設計用於複雜互動的各種問答對。這種設定提高了影片理解模型處理現實問題的能力。我們參考公共影片問答基準,將這些問題組織為 16 種特定類別,如圖 3 所示。給定詳細的影片描述,我們使用 GPT-4o 為每種問題型別最多生成一個問答對。有關問題型別和生成過程的更多細節,請參閱論文。
資料建立中用於生成影片問答對的問題型別。對於每種型別,我們提供其名稱和示例問題。
資料集統計
我們從收集到的資料來源中精心挑選,以形成一個平衡且全面的集合,最終得到總共 178K 個影片和 1.3M 個指令跟隨樣本。這包括 178K 個影片描述、960K 個開放式問答和 196K 個多項選擇問答。
不同資料集和問題型別(描述、開放式 Q&A、多項選擇 Q&A)中的資料分佈。
一個用於說明 LLaVA-Video-178K 中影片指令跟隨資料的示例。
資料集比較
LLaVA-Video-178K 和其他影片語言資料集的比較。平均 FPS 代表用於提示 GPT-4o/GPT-4V 進行註釋的每秒幀數。★:VIDAL, WebVid, ActivityNet。◼:Panda-70M, Pexels, Pixabay, Mixkit, BDD100K, Ego4d。✸:HD-VILA-100M, Kinetics-700M, Ego4D, VidOR, InternVid, YouCook2, ActivityNet, Sth-sthv2, VIDAL, Charades。
我們提供了和其他高質量指令跟隨影片語言資料集的比較,LLaVA-Video-178K 展現瞭如下優勢
1. 廣泛的動態影片集合:在影片來源方面,雖然 LLaVA-Hound 包含最多的影片,但其 44% 的影片資料來自 [WebVid](https://ak.picdn.net/shutterstock/videos/21179416/preview/stock-footage-aerial-shot-winter-forest.mp4),其中大多數影片是靜態的。ShareGPT4Video 的 30% 影片來自 [Pexels](https://www.pexels.com/video/a-bird-is-standing-on-the-beach-27916646/)、[Pixabay](https://pixabay.com/videos/plane-modelling-miniature-lockheed-134519/) 和 [Mixkit](https://mixkit.co/free-stock-video/a-young-woman-clad-in-snugly-black-sportswear-doing-lunges-52112/)。這些影片美學效果很好,但是同時存在影片本身較為靜態的弊病。此外,其大部分影片來自 Panda-70M,這些是從較長影片中剪輯的短片,其情節較為簡單。相比之下,我們精心選擇了動態,情節複雜的影片,這對於開發強大的影片理解模型至關重要。
2. 高幀率:關於取樣的幀的頻率,LLaVA-Video-178K 考慮了 1 FPS,而其他資料集考慮的 FPS 較低。LLaVA-Hound 從任意長度的影片中均勻取樣 10 幀。平均 FPS 為 0.008,這樣會錯過一些細節。ShareGPT4Video 使用 CLIP 基於幀的獨特性選擇關鍵幀。此方法可能也會錯過影片中的細微變化,因為 CLIP 的特徵無法很好地捕捉細粒度動態。我們的方法以 FPS=1 進行取樣,不使用關鍵幀選擇演算法,確保詳細的時間資訊能夠在註釋中得到高覆蓋率的表達。
3. 多樣化的任務:所提出的資料集考慮了三種常見的任務型別,包括描述、自由形式和封閉形式問答,而現有的資料集僅考慮了其中的一部分。同時,我們資料集的樣本質量和數量更高。
該資料集聚焦動態影片, 高幀率, 和多樣化的任務, 讓影片多模態大模型洞察每一瞬精彩。
影片表示
基於經典的 SlowFast 影片表示方法,我們開發了 LLaVA-Video_SlowFast,以在影片表示中,平衡幀數和視覺 token 的數量,同時考慮 LLM 的上下文視窗限制和 GPU 記憶體的限制。
具體來說,我們根據擊中率 s 將幀分為兩組,每隔 s 幀均勻選出形成 * 慢 * 幀組,剩下的幀被認為是 * 快 * 幀組。需要注意的是,當 s=1 時,只有一組幀,這種情況下 SlowFast 表示就簡化為原始的簡單表示。對於每組幀,我們使用 PyTorch 函式 avg_pool2d}() 應用不同的池化率。我們對慢幀使用 pXp 池化,對快幀使用 2pX2p 池化。
基準效能
LLaVA-Video 的表現。對於 VideoDC 和 VideoChatGPT 的,我們使用 5 分制度打分,其他評測集結果以準確率打分。所有結果均為 0-shot 準確率。* 表示該評測集的訓練集已在我們的訓練集中使用。
我們在影片和影像資料的聯合資料集上微調了 LLaVA-OneVision (SI)。具體而言,我們新增了來自 LLaVA-Video-178K 資料集和四個公共資料集的影片資料:ActivityNet-QA、NExT-QA、PerceptionTest 和 LLaVA-Hound-255K,此外,我們還使用了來自 LLaVA-OneVision 模型的 110 萬個影像語言對。如表格所示,LLaVA-Video 展現了出色的效能。
結論
本研究介紹了高質量的專為影片語言指令任務設計的 LLaVA-Video-178K 資料集。它的特點是在較長的未修剪影片中進行密集的幀取樣,覆蓋了包括字幕製作、開放式和多項選擇問答等多種任務。透過將 LLaVA-Video-178K 資料集與現有的視覺指令資料結合起來,我們開發了一系列新的模型,LLaVA-Video。這些模型改進了影片表現,更有效地利用了 GPU 資源,使我們能夠在訓練過程中處理更多幀。實驗結果證明了所提出的合成資料集的有效性,LLaVA-Video 模型在各種影片基準測試中都表現出色。