最近,ByteDance Research 的影片理解大模型眼鏡猴(Tarsier) 迎來了巨大更新,釋出了第二代模型 Tarsier2 及相關技術報告。研究團隊此前釋出的 Tarsier-7B/34B 在影片描述領域已經是最強開源模型,僅次於閉源模型 Gemini-1.5-Pro 和 GPT-4o。那麼這次新版 Tarsier2 又會帶給我們什麼樣的驚喜呢?
直接上強度!來看看 Tarsier2 對下面這兩個影視名場面的理解如何: 《燕子,沒有你我怎麼活》
《曹操蓋飯》
可以看到,Tarsier2 不僅對於影片中人物動作捕捉得細緻入微(如小嶽嶽追車、跪地,曹操蓋飯、揮手),還可以充分結合影片中的字幕資訊,從而進一步分析人物的動機 / 心理,理解人物關係和情節發展。
既然如此複雜的影視片段能夠分析清楚,Tarsier 最擅長的影片描述任務自然也不在話下:
Tarsier2 影片描述效果合集
無論是真人還是動畫、橫屏還是豎屏、多場景還是多鏡頭,Tarsier2 總是能敏銳地捕捉影片中的核心視覺元素及動態事件,使用簡練的語言表述出來,並且很少產生幻覺。這麼看來,Tarsier2 已經可以和 GPT-4o 扳一扳手腕了。
“火眼金睛” 是怎麼煉成的?
Tarsier2 是一個 7B 大小的輕量級模型,支援動態解析度,能夠看得懂長達幾十分鐘的影片,尤其擅長對幾十秒的短影片片段進行分析。研究團隊公開了詳盡的技術報告,相關資料、程式碼和模型也在持續開源中:
論文地址:https://arxiv.org/abs/2501.07888
專案倉庫:https://github.com/bytedance/tarsier
HuggingFace:https://huggingface.co/omni-research
Tarsier2 強大的影片理解能力主要得益於預訓練和後訓練兩個階段的精益求精。
預訓練
Tarsier2 在 4000 萬個網際網路影片 - 文字資料上進行預訓練。不同於文字模型只需要網際網路上的單語語料就可訓練,影片理解模型嚴重依賴高質量的影片 - 文字對齊資料。因此,如何大規模地獲取對齊資料是模型訓練的最大難點。團隊主要透過以下兩個途徑來解決:
資料收集方面:Tarsier2 海量收集網際網路上的影片 - 文字資料。這些資料分佈廣泛,涵蓋電影、電視劇、短影片等各種來源,涉及人機互動、自動駕駛等多個領域。值得一提的是,Tarsier2 篩選了一大批影視劇解說的影片。這些影片不僅能夠幫助模型學會簡單的動作、事件,還能輔助模型理解更高層次的情節資訊。
資料篩選方面:Tarsier2 設計了一套嚴謹的流程,來篩選高質量訓練資料。每條資料都會經歷 “分鏡 → 過濾 → 合併” 3 個階段。“分鏡” 階段,影片會被切分成多個單一鏡頭片段;“過濾” 階段針對不同的資料使用不同的模型過濾低質資料,如過濾掉動態性太差的、文字和畫面無關的等;“合併” 階段再將剩下的相鄰的影片片段合在一起,增加影片的複雜度。
後訓練
後訓練分為 SFT 和 DPO 兩個階段。
SFT:這一階段,模型在人工標註的影片描述資料上進行訓練。這個階段的描述資料也是大有講究。Tarsier2 提出在影片描述中引入針對每個子事件的具體定位資訊(即明確每個事件源自哪些幀),以強化模型對時序資訊與視覺特徵的關注度,增強文字與視覺訊號的對齊。
SFT資料樣例
DPO:這一階段,模型在自動化構造的正負樣本上進行 DPO 訓練。其中,正樣來源於模型對原始影片的預測結果;負樣本來源於模型對經過預先設計的隨機擾動的影片的預測結果。這種直觀高效的構造方式使得模型能夠在描述影片時,“又準確又全面”,減少描述中存在的幻覺。
是騾子是馬,牽出來溜溜!
俗話說,“光說不練假把式”,Tarsier2 在多達 19 個影片理解公開基準上進行了效能測試,和最新最強的 10+ 個開源模型(Qwen2-VL、InternVL2.5、LLaVA-Video 等)以及閉源模型(Gemini-1.5, GPT-4o)來了場 “硬碰硬”。
Tarsier2 在包括影片描述、短 / 長影片問答在內的通用影片理解任務上表現亮眼。在影片描述評測集 DREAM-1K 上,Tarsier2 相比 GPT-4o 提升 +2.8%,相比 Gemini-1.5-Pro 提升 +5.8%;在人工評估中,Tarsier2-7b 相比 GPT-4o 優勢佔比 +7.8%,相比 Gemini-1.5-Pro 優勢佔比 +12.3%。
影片描述質量人工評估結果
此外,Tarsier2 更是在 10+ 個影片理解公開榜單上,超越了 Qwen2-VL-7B、InternVL2.5-8B 等同規模的模型,取得了 SOTA 成績:
Tarsier2在廣泛的影片理解任務上樹立了新的標杆
除了勝任各種通用影片理解任務,Tarsier2 作為基座模型在機器人、智慧駕駛等下游任務場景中也展現出了極強的泛化能力。在機器人領域,Tarsier2 能為指定的任務生成詳細的步驟指令。在智慧駕駛方面,Tarsier2 也能夠幫助車輛識別道路情況,並輔助進行決策。 機器人場景。
智慧駕駛場景。
向更強的智慧進發
Tarsier 在生成詳細且準確的影片描述方面超越了現有的閉源和開源工作,更是在廣泛的影片理解任務中樹立了新的標杆。文字、語音、圖片、影片多模態深度融合是當下人工智慧發展的核心趨勢與關鍵方向,Tarsier2 在這條道路上已經邁出了堅實的步伐。期待未來 Tarsier2 能在多模態融合的浪潮中持續領航,為人工智慧的發展帶來更多驚喜與突破 。