實測13個類Sora影片生成模型,8000多個案例,一次看個夠

机器之心發表於2024-10-16
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

作者團隊介紹:本文作者主要來自騰訊 AI Lab,作者分別是曾愛玲,騰訊 AI 資深研究員;來自中科大的楊雨航,主要研究方向是人與物互動的理解與生成;陳衛東,騰訊 AI 資深研究員;劉威,騰訊傑出科學家,IEEE fellow。

最近,騰訊 AI Lab 聯合中科大發布了一份針對類 SORA 影片生成模型的測評報告,重點聚焦目前最前沿的類 SORA DiT 架構的高質量影片生成閉源模型,產品以及部分開源模型評估,從技術上,這些模型相較於之前 Stable Diffusion 類的影片模型不僅全面提升了畫質,還在動作自然度和多樣性、視覺 - 語言對齊以及控制精度上做出了顯著進步,測評涵蓋了從文生影片(T2V)、圖生影片(I2V)以及影片到影片(V2V)生成模型全面能力評估,甚至連前幾天剛更新的 pika1.5 特效以及 Meta 公佈的 Movie Gen 都加進來了!

為了更加系統全面地測試,作者團隊從多個維度系統地設計了 700 多個生成提示詞和圖片,分別從 1) 影片垂類場景,2) 多個客觀評價角度,3) 十大影片應用場景以及使用者需求等角度,從基礎能力到應用和落地能力多方面進行了測試設計,評估了 13 個主流模型(包括 10 個閉源和 3 個最新開源模型),生成了超過 8000 個影片案例,以多模型對比視覺化地形式直觀展示生成效果,幫助大家更好地理解現在模型的能力與不足,作者強調需要關注各個維度的實際例子的比較,而不僅僅是一個數值指標。
圖片
圖一:影片生成的多維度測評一覽
圖片
  • 論文題目:The Dawn of Video Generation: Preliminary Explorations with SORA-like Models
  • 論文連結:https://arxiv.org/pdf/2410.05227
  • 網站連結:https://ailab-cvc.github.io/VideoGen-Eval/

這篇文章可以說是現階段影片生成領域的一次全面梳理和深度評估。之前影片生成測評報告裡多用客觀數值指標來判斷模型的能力,但目前的自動化評估仍然難以完全反映模型的真實表現並且難以對齊人類偏好,同時測評的模型有較大的滯後性,且極少有生成影片的案例梳理,難以體現影片生成研究的前沿性。本文以最直觀的測評方式:把測評影片公開,把答案交給讀者,強調了人眼觀感的重要性,讀者可以在網站上直接觀看並對比多個模型的生成結果來直觀感受。這種 “眼見為實” 的評估方式,也為行業帶來了更多的透明性和參考價值,給創作者實實在在帶來了更多參考來源。

研究的亮點之一在於對模型在垂直領域中的應用,包括以人為中心的影片生成、機器人、動畫插幀、自動駕駛、世界模型、相機可控的影片生成等領域的垂類模型的深入對比。

以下是部分提示詞測試結果展示:實測13個類Sora影片生成模型,8000多個案例,一次看個夠文字提示詞:這是一個動畫影片,中間有一個鏡頭,顯示一個棕色頭髮的小男孩餓著肚子吃盤子裡的雞蛋和燻肉。那男孩吃得又快又亂,把食物弄到臉上。 實測13個類Sora影片生成模型,8000多個案例,一次看個夠
文字提示詞:三個人談笑風生,一起向右轉,然後右邊的兩個人蹲了下來,左邊的人指著右邊的兩人。

其次,用數百個提示詞測試影片模型在文字對齊、視覺和動作質量、構圖美學、組合能力、鏡頭轉場、情感理解、穩定性和創意等客觀影片生成能力上的表現。實測13個類Sora影片生成模型,8000多個案例,一次看個夠 文字提示詞:相機保持靜止,男孩揮舞著棒球棍,把棒球打走了。 實測13個類Sora影片生成模型,8000多個案例,一次看個夠
文字提示詞:展示世界上最具標誌性的橋樑和高速公路,從金門大橋到中國長城。攝像機跟隨車輛穿過這些建築,突出了它們的建築輝煌和它們所連線的風景。使用無人機拍攝、路上拍攝和延時拍攝相結合的方式來捕捉這些基礎設施的運動和功能。實測13個類Sora影片生成模型,8000多個案例,一次看個夠 文字提示詞:一個人在網上收到負面反饋,導致他 / 她與焦慮和抑鬱作鬥爭。 實測13個類Sora影片生成模型,8000多個案例,一次看個夠
文字提示詞:超市裡的泰迪熊。相機正在逆時針移動。實測13個類Sora影片生成模型,8000多個案例,一次看個夠
文字提示詞:特寫鏡頭:濃郁的巧克力傾瀉而下。流動在傾倒時形成 “TME”。溫暖的燈光增強了光澤質感。慢動作捕捉到天鵝絨般的漣漪。隨著巧克力令人著迷的下降,相機開始拍攝。

文章的後半部分探討了使用場景(包括廣告電商、動漫、影視、短影片、教育等十大場景)和新任務的探索,這不僅為學術研究提供了重要參考,也為實際影片廣泛應用鋪平了道路。所有生成結果均公開,並將持續更新,成為新的影片生成基準實測13個類Sora影片生成模型,8000多個案例,一次看個夠
文字提示詞:這段影片是一個靜態的中鏡頭,拍攝了一袋濃縮咖啡豆和一個裝滿咖啡的白色咖啡杯。當咖啡充滿杯子時,蒸汽開始上升。

深入比較了開源和閉源模型,目前開源模型的效能還遠遠不足,強調了差距尤其體現在訓練資源、模型規模、資料質量與數量等方面。最後,文章詳細列舉了影片生成領域面臨的挑戰和介紹未來的研究方向,包括複雜動作理解與生成、概念理解、互動影片生成、個性化生成、多語種文字生成、多模態影片生成、以及提出持續可改進的影片生成模型等前沿探索性問題。實測13個類Sora影片生成模型,8000多個案例,一次看個夠
文字提示詞:相機保持靜止,該男子用右手拿起桌子上的眼鏡。
注:目前圖生影片,存在對輸入圖片的理解不足,以及生成動作困難等問題實測13個類Sora影片生成模型,8000多個案例,一次看個夠
文字提示詞:一支足球隊在贏得比賽後在球場上擠在一起、跳躍和歡呼的動態鏡頭。相機捕捉到了歡樂和友情。
注:目前影片生成對多人場景生成較差

總的來說,這篇報告不僅系統性地展示了 SORA 類模型的現狀,還提供了大量的影片結果分析,特別是在不同場景中的應用表現和未來的研究挑戰方面。作者鼓勵社群利用這些公開資源進行深入研究,並透過直接觀察生成影片,獲取更細緻的理解,總結共性問題。隨著領域的快速發展,報告對未來的突破持樂觀態度,並承諾持續更新研究成果,探索更全面的定量評估方法,推動對影片生成領域的更深刻理解。對於影片生成領域的研究人員和開發者來說,這篇文章為理解模型的能力邊界、侷限性以及未來的研究方向提供了寶貴的參考。

今年初伴隨著 Sora 的出現,也是影片生成的元年。從本文的大量影片來看,真的如題目所寫 “影片生成的黎明時期”,尚有很多不足但這一年確實進展很快。我們也期待隨著技術的迭代進步,以語言互動的方式做影片以及把創作影片內容門檻降低,人人都能釋放更多創意和製作高質量影片內容的時代終將到來,到那個時候也許會迎來新一輪 AIGC 生產革命。

回顧近期人工智慧的發展,可以看到目前正處於規模化階段,各公司競相擴大模型規模,工程執行成為主要任務。未來將進入以研究和創新為主導的第三階段,資料生產和模型評估將至關重要。單純出租模型的商業模式可能難以為繼,構建模型之上的應用程式和提供模型基礎設施將更有前景。

最後劃重點:為了方便研究人員和使用者更好地檢視和對比,作者非常貼心地在網站中分別展示了一個影片對比所有的模型以及單個模型單獨檢視模式,一次看個夠!

(圖二、圖三、圖四參考原專案檢視。)
圖片
圖二:一個影片對比所有的模型的檢視方式
圖片
圖三:網站貼心地準備了三大任務以及 12 個模型分別的檢視入口
圖片
圖四:點選每個模型的名字,就能單獨檢視每個模型的影片生成結果了!

針對本文測評的持續更新結果,作者建立了一個專業使用者交流群,歡迎感興趣的讀者加入。點選以下連結訪問:
https://github.com/AILab-CVC/VideoGen-Eval/blob/main/docs/specifc_model/wechat.md

相關文章