用AI短影片「反哺」長影片理解,騰訊MovieLLM框架瞄準電影級連續幀生成

机器之心發表於2024-03-11

在影片理解這一領域,儘管多模態模型在短影片分析上取得了突破性進展,展現出了較強的理解能力,但當它們面對電影級別的長影片時,卻顯得力不從心。因而,長影片的分析與理解,特別是對於長達數小時電影內容的理解,成為了當前的一個巨大挑戰。

究其原因,導致模型理解長影片困難的一個主要原因是缺乏高質量、多樣化的長影片資料資源,而且收集和註釋這些資料需要龐大的工作量。

面對這樣的難題, 騰訊復旦大學的研究團隊提出了 MovieLLM,一個創新性的 AI 生成框架。MovieLLM 採用了創新性的方法,不僅可以生成高質量、多樣化的影片資料,而且能自動生成大量與之相關的問答資料集,極大地豐富了資料的維度和深度,同時整個自動化的過程也極大地減少了人力的投入。

圖片

  • 論文地址:https://arxiv.org/abs/2403.01422
  • 主頁地址:https://deaddawn.github.io/MovieLLM/

這一突破性的進展不僅提高了模型對複雜影片敘事的理解能力,還增強了模型針對長達數小時電影內容的分析能力,克服了現有資料集在稀缺性和偏差方面的限制,為超長影片的理解提供了一條全新而有效的思路。

MovieLLM 巧妙地結合了 GPT-4 與擴散模型強大的生成能力,應用了一種「story expanding」連續幀描述生成策略,並透過「textual inversion」來引導擴散模型生成場景一致的圖片來構造出一部完整電影的連續幀。

圖片

方法概述

MovieLLM 巧妙地結合了 GPT-4 與擴散模型強大的生成能力,構造了高質量、多樣性的長影片資料與 QA 問答來幫助增強大模型對長影片的理解。

圖片

MovieLLM 主要包括三個階段:

1. 電影情節生成。

MovieLLM 不依賴於網路或現有資料集來生成情節,而是充分利用 GPT-4 的能力來產生合成資料。透過提供特定的元素,如主題、概述和風格,引導 GPT-4 產生針對後續生成過程量身定製的電影級關鍵幀描述。

2. 風格固定過程。

MovieLLM 巧妙地使用「textual inversion」技術,將劇本中生成的風格描述固定到擴散模型的潛在空間上。這種方法指導模型在保持統一美學的同時,生成具有固定風格的場景,並保持多樣性。

3. 影片指令資料生成。

在前兩步的基礎上,已經獲得了固定的風格嵌入和關鍵幀描述。基於這些,MovieLLM 利用風格嵌入指導擴散模型生成符合關鍵幀描述的關鍵幀並根據電影情節逐步生成各種指令性問答對。

圖片

經過上述步驟,MovieLLM 就建立了高質量、風格多樣的、連貫的電影連續幀以及對應的問答對資料。電影資料種類的詳細分佈如下:

圖片

實驗結果

透過在 LLaMA-VID 這一專注於長影片理解的大模型上應用基於 MovieLLM 構造的資料進行微調,本文顯著增強了模型處理各種長度影片內容的理解能力。而針對於長影片理解,當前並沒有工作提出測試基準,因此本文還提出了一個測試長影片理解能力的基準

雖然 MovieLLM 並沒有特別地去構造短影片資料進行訓練,但透過訓練,仍然觀察到了在各類短影片基準上的效能提升,結果如下:

在 MSVD-QA 與 MSRVTT-QA 這兩個測試資料集上相較於 baseline 模型,有顯著提升。

圖片

在基於影片生成的效能基準上,在五個測評方面都獲得了效能提升。

圖片

在長影片理解方面,透過 MovieLLM 的訓練,模型在概括、劇情以及時序三個方面的理解都有顯著提升。

圖片

此外,MovieLLM 相較於其他類似的可固定風格生成圖片的方法,在生成質量上也有著較好的結果。

圖片

總之,MovieLLM 所提出的資料生成工作流程顯著降低了為模型生產電影級影片資料的挑戰難度,提高了生成內容的控制性和多樣性。同時,MovieLLM 顯著增強了多模態模型對於電影級長影片的理解能力,為其他領域採納類似的資料生成方法提供了寶貴的參考。

對此研究感興趣的讀者可以閱讀論文原文,瞭解更多研究內容。

相關文章