VBench直接幹到了第一!這一次,影片生成「壓番」全場的是家央企

机器之心發表於2024-12-03

高難度武打影片,也能「手拿把掐」。


回想起來,年初對國內文生影片技術迭代速度的預估還是保守了。

OpenAI 在 2 月釋出 Sora 後,至今還是期貨,但國內科技界迅速跟進,幾乎月月有戰報。

位元組 3 月底就端出「即夢」,3-6 秒的小影片隨心所欲地玩。生數科技 4 月底放出 Vidu 模型,硬剛 Sora。快手 6 月祭出「可靈」,又把 AI 吃播玩出新水平。9月,位元組又有新動作。騰訊「混元」姍姍來遲,還搞了個開源。

沒想到的是,眼瞅著 2024 快要翻篇了,賽道里居然又擠進一位大牌選手,身份還有些特殊。

央企、也是三大運營商之一:中國電信。

憑藉全自研技術、海量資料和萬卡 「家底」 ,中國電信人工智慧研究院(以下簡稱 TeleAI )釋出了影片生成大模型。

繼星辰語義大模型、星辰語音大模型之後,TeleAI 再次展示了中國電信在大模型領域與科技巨頭同臺競技的雄心。這家 7 月才掛牌的研究院,正攜手中電信人工智慧科技有限公司用一個個創新,重新定義傳統運營商在 AI 時代的角色。

這個影片生成大模型有多能打?


作為 12 月 1 日最新上榜的模型,它在 VBench 上直接幹到了第一,大幅領先第二名。

VBench 是一個全面的「影片生成模型的評測框架」,它將「影片生成質量」細分為 16 個評分維度,從人物形象一致性、動作流暢度、畫面穩定性到空間關係等方面對模型進行細緻、客觀的評估。

圖片 TeleAI-VAST在VBench榜單上表現亮眼。

專案連結:https://huggingface.co/spaces/Vchitect/VBench_Leaderboard

TeleAI 影片生成大模型在 VBench 的 16 個評分專案中,一舉奪得 9 項第一,覆蓋了模型最核心的幾個能力。

如,畫面穩定性(時序閃爍)、語義一致性(物體分類、多物體、人體動作)、空間場景(空間關係、場景),以及視覺風格(顏色、外觀、時序風格)。

其中,有 5 項得分超過 99%,更有兩項——物體分類和人體動作——拿了滿分 100% 。

模型的語義表達能力尤其亮眼。以 92.63% 的總分領先第二名整整 11 個百分點,幾乎橫掃了所有相關指標第一名,從語義一致性、多物體生成到空間場景把控,都展現出超出同儕的專業水準。

影片質量同樣出色,以 88.60% 的總分獨佔鰲頭。無論是畫面穩定性、時序連貫性,還是視覺風格的把控,均表現不俗。

這麼看,不管是「理解影片」 還是「做影片」 ,這模型都挺全面,成功超越 Runway Gen-3、可靈、Vidu、MiniMax-Video-01、Pika 等一眾勁敵。

算是把物理玩明白了

作為中國電信 2024 年數字科技生態大會的重要環節,今天的 TeleAI 開發者大會展示了一段令人印象深刻的 AI 影片。

這段 3 分鐘的影片不僅能從容駕馭 4 個主角,還能流暢切換多個場景。VBench直接幹到了第一!這一次,影片生成「壓番」全場的是家央企

3 分鐘影片僅是冰山一角,透過分鏡生成加主題目標註入,理論上已經可以生成任意長度的影片內容。

看來野心不小。要知道,當前 AI 影片生成領域仍在短影片階段摸索,大多數模型僅能生成十幾秒的內容。即便是少數能達到 3 分鐘的作品,通常也只能應付單個主角。

就算是單一主體,維持目標一致性也是巨大挑戰。就連 Sora 這樣的頂級模型也存在類似問題。

在這個廣為流傳的影片中,提示詞設定的是一隻鸚鵡,結果突然變成多隻。當鸚鵡與猴子發生交集,動物特徵開始混亂:

鸚鵡的翅膀扭曲了,後來頭也沒了。猴子呢?一隻長出了鸚鵡腳趾,另一隻居然有了鸚鵡的尾巴。

圖片

提示詞:An overhead view of a parrot flying through a verdant Costa Rica jungle, then landing on a tree branch to eat a piece of fruit with a group of monkeys. Golden hour, 35mm film.

而隨著影片時長延長、主體數量增加,一致性難度會呈指數級上升。但從 VBench 評測榜單可見,TeleAI 的模型在主體一致性(subject consistency)方面表現出色,對付這一技術難點自然有一手。

從大會展示的影片效果看,四位女主角在多場景切換中保持了高度的形象穩定性,也印證了這一點。

圖片
圖片

圖片

各個影片片段都能夠保持主體外觀的一致性

下面兩個影片展示了影片生成大模型在多場景連續性上的實力。

從公交車、大街,再到酒吧和餐廳,目標主體的外觀始終保持一致:面部特徵(包括佩戴墨鏡)、服裝、髮型都很穩定,沒有出現不連貫的情況。VBench直接幹到了第一!這一次,影片生成「壓番」全場的是家央企

從坐在教室聽課的學生到穿學士服領畢業證,服裝、造型隨著場景在變,但一眼就能認出「這就是那個姑娘」。

圖片

更值得注意的是,憑藉強大的語義表達能力,模型還展現出了類似 Sora 的鏡頭排程能力

它能在一個影片中建立多個鏡頭,並準確保留角色特徵和視覺風格。這種多鏡頭敘事的手法讓畫面具有了強烈的電影敘事感。

圖片

這段 AI 演練影片也展現了令人印象深刻的多鏡頭敘事

一會兒在天上俯拍,把整個艦隊盡收眼底;一會兒從航母甲板上,特寫艦載機起飛的瞬間。還有從攝影船上水平拍攝、空中跟拍,甚至水下拍攝。

一套「組合拳」打下來,確實玩出了大片的味道。VBench直接幹到了第一!這一次,影片生成「壓番」全場的是家央企

事實上,與目前 Sora 生成的默片相比,這個 AI 演練作品還有一個更勝一籌的地方。

Sora 雖然在畫面生成上表現出色,但缺少聲音確實削弱了影片的感染力。TeleAI 影片生成大模型在這方面實現了突破,能夠同步生成與畫面完美契合的音訊效果

不過,當前的影片大模型除了要應對目標一致性的挑戰,還面臨著一個更基礎的問題:對物理規律和常識的理解還很膚淺。這導致它們經常翻車。

人在跑步機上莫名其妙地倒著跑。

圖片

體育影片更是重災區。體操運動員四肢橫飛、身體扭曲、與單槓、墊子的互動完全脫離物理法則,場面非常恐怖。

圖片

TeleAI 影片生成大模型在遵循物理和常識方面展現出突出實力在 VBench 測試中的人體動作和物體分類兩項指標都拿下了滿分。

就說這個跳水片段。人物從懸崖邊騰空到入水的整個過程,動作姿態流暢自然,符合物理定律,也沒有 AI 生成常見的扭曲變形。懸崖邊的浪花效果也很逼真。VBench直接幹到了第一!這一次,影片生成「壓番」全場的是家央企

TeleAI 開發者大會秀出的影片中,女主躍入大海時,肢體沒有橫飛和扭曲。

跳水還只是單人專案,再看這段打戲,難度可就更大了。

一個是動作要協調。兩個人打起來,一個出拳另一個要躲,動作配合要天衣無縫。其次,距離感也得把握好,打近了怕穿模,太遠又顯得夠不著。VBench直接幹到了第一!這一次,影片生成「壓番」全場的是家央企

這段影片展現了 AI 在多主體互動場景中的出色表現。

武器碰撞、進攻防守都很到位,真假美猴王和武器也沒有穿模,打鬥場面比較自然流暢。即使在高速運動中,美猴王的外貌、服裝和武器也沒走樣。

回看此前的 AI 演練影片,模型在多主體場景的物理模擬方面同樣表現出色。

無論是空中編隊飛行,還是多個主體的動態位置和姿態,都保持了合理的空間關係,避免了穿模問題。

火焰和煙霧的形態與擴散過程,也都嚴格遵循物理規律,呈現出真實可信的視覺效果。

圖片

而這個摘頭盔的片段,特別能說明大模型處理複雜動作序列時的能力。VBench直接幹到了第一!這一次,影片生成「壓番」全場的是家央企

人的手指與頭盔的互動準確自然,摘頭盔時頭髮的晃動效果逼真,整個動作序列顯得連貫流暢。畫面中沒有出現「六指」或手指穿模等常見缺陷。

場景的遠近層次感也處理得當。遠處的火山爆發場景自然虛化,而近處的人物保持清晰,使整個畫面看起來層次分明又不顯呆板。

應用為王:從影片到短劇平臺

TeleAI 在保持目標主體一致性和還原真實世界細節方面的突破性進展,可不僅僅是為了玩影片生成,他們盯上了一塊更大的蛋糕:AI 短劇市場。

短劇近年來太火,開啟 App Store ,榜首基本被短劇應用霸佔。使用者就愛這種幾分鐘的「快餐」,劇情快,看著過癮。

要說市場規模,去年短劇就已經到了 373.9 億,比前年暴增 267.65% 。這數字已經頂得上電影票房的七成了。今年預計還要突破 500 億,直逼電影市場。

圖片
周星馳出品的《金豬玉葉》6月在抖音上線,短短几天播放量就衝破3000萬,這部劇總共24集,每集也就5分鐘左右,整個拍攝週期才用了13天。

目前已有創作者使用 AI 製作短影片,一些作品播放量輕鬆突破百萬。業內普遍看好影片生成在中國的發展前景,認為 AI 將為短影片產業,特別是短劇行業帶來重大機遇。

不過,要說用 AI 拍完整短劇,還有不少坑要填。短劇製作很複雜,要搞定劇本、人物、影片、音訊,最後還得串成完整的故事。現在創作者得在各種 AI 工具間倒騰,連 Sora 都做不到「一條龍」服務。

TeleAI 在這件事上拿出了態度:

他們已經完成了語義、語音、視覺、多模態等技術的全模態佈局,目標是將這些能力整合,實現使用者輸入故事構思即可「一鍵生成」短劇的願景。

在具體實現上,他們的星辰大模型可將創意構思轉化為成熟劇本,透過文生圖技術塑造人物形象,根據劇本生成分鏡圖,最後基於這些素材生成外觀統一、情節連貫的影片片段,最終合成完整短劇。

就拿這個影片模型來說,為了做短劇,TeleAI 沒跟著 Sora 走一樣的路,而是另起爐灶,全自研了二階段影片生成技術 VAST。

透過兩階段生成框架——先畫分鏡,再生成影片,這項關鍵技術顯著提升了短劇創作過程的可控性。

說得更具體一些。

第一階段就像導演畫分鏡,藉助多模態大模型和自迴歸技術,將文字描述轉換成一系列分鏡頭。這些「分鏡」包含了人物姿勢、場景分佈、遠近關係等關鍵資訊,相當於給後面的影片生成打好了草稿。

第二階段如同真實拍攝,讓擴散模型根據這些「分鏡」開始生成影片畫面。透過將「分鏡」作為條件輸入,並結合文字描述和目標主體的外觀特徵,生成能夠精準控制主體位置、動作和外觀的影片內容。

比如短劇的一場打戲,大模型會先規劃出完整的動作編排:從出手角度、躲閃走位到環境互動,都在分鏡中預先設定。

當系統生成實際畫面時,就能嚴格按照這份草稿來呈現,確保每個出招防守都準確到位,武打場面既符合物理規律,又富有觀賞性。

圖片
實現對複雜動作的精確控制

TeleAI 影片生成大模型的進化仍在加速。它的下一步規劃令人期待:多目標控制、鏡頭運動、3D 渲染全面升級。而這一切,都將在即將到來的一站式 AI 短劇平臺中實現。

想象一下:一個創意、一臺電腦,就能完成從劇本創作到影片生成的全流程。當 Sora 還在實驗室裡磨練時,為什麼不先來嘗試已經觸手可及的創作利器?

對於每個懷揣故事夢想的創作者來說,TeleAI 正在讓「一個人拍一部劇」成為現實。這扇通向 AI 短劇時代的大門已經開啟,而你,準備好成為下一個創作先鋒了嗎?

相關文章