VBench直接幹到了第一！這一次，影片生成「壓番」全場的是家央企

机器之心發表於2024-12-03

原文網址 : https://www.jiqizhixin.com/articles/2024-12-03-8

高難度武打影片，也能「手拿把掐」。

回想起來，年初對國內文生影片技術迭代速度的預估還是保守了。

OpenAI 在 2 月釋出 Sora 後，至今還是期貨，但國內科技界迅速跟進，幾乎月月有戰報。

位元組 3 月底就端出「即夢」，3-6 秒的小影片隨心所欲地玩。生數科技 4 月底放出 Vidu 模型，硬剛 Sora。快手 6 月祭出「可靈」，又把 AI 吃播玩出新水平。9月，位元組又有新動作。騰訊「混元」姍姍來遲，還搞了個開源。

沒想到的是，眼瞅著 2024 快要翻篇了，賽道里居然又擠進一位大牌選手，身份還有些特殊。

央企、也是三大運營商之一：中國電信。

憑藉全自研技術、海量資料和萬卡「家底」，中國電信人工智慧研究院（以下簡稱 TeleAI ）釋出了影片生成大模型。

繼星辰語義大模型、星辰語音大模型之後，TeleAI 再次展示了中國電信在大模型領域與科技巨頭同臺競技的雄心。這家 7 月才掛牌的研究院，正攜手中電信人工智慧科技有限公司用一個個創新，重新定義傳統運營商在 AI 時代的角色。

這個影片生成大模型有多能打？

作為 12 月 1 日最新上榜的模型，它在 VBench 上直接幹到了第一，大幅領先第二名。

VBench 是一個全面的「影片生成模型的評測框架」，它將「影片生成質量」細分為 16 個評分維度，從人物形象一致性、動作流暢度、畫面穩定性到空間關係等方面對模型進行細緻、客觀的評估。

^{TeleAI-VAST在VBench榜單上表現亮眼。}

專案連結：https://huggingface.co/spaces/Vchitect/VBench_Leaderboard

TeleAI 影片生成大模型在 VBench 的 16 個評分專案中，一舉奪得 9 項第一，覆蓋了模型最核心的幾個能力。

如，畫面穩定性（時序閃爍）、語義一致性（物體分類、多物體、人體動作）、空間場景（空間關係、場景），以及視覺風格（顏色、外觀、時序風格）。

其中，有 5 項得分超過 99%，更有兩項——物體分類和人體動作——拿了滿分 100% 。

模型的語義表達能力尤其亮眼。以 92.63% 的總分領先第二名整整 11 個百分點，幾乎橫掃了所有相關指標第一名，從語義一致性、多物體生成到空間場景把控，都展現出超出同儕的專業水準。

影片質量同樣出色，以 88.60% 的總分獨佔鰲頭。無論是畫面穩定性、時序連貫性，還是視覺風格的把控，均表現不俗。

這麼看，不管是「理解影片」還是「做影片」，這模型都挺全面，成功超越 Runway Gen-3、可靈、Vidu、MiniMax-Video-01、Pika 等一眾勁敵。

它算是把物理玩明白了

作為中國電信 2024 年數字科技生態大會的重要環節，今天的 TeleAI 開發者大會展示了一段令人印象深刻的 AI 影片。

這段 3 分鐘的影片不僅能從容駕馭 4 個主角，還能流暢切換多個場景。 VBench直接幹到了第一！這一次，影片生成「壓番」全場的是家央企

^{3 分鐘影片僅是冰山一角，透過分鏡生成加主題目標註入，理論上已經可以生成任意長度的影片內容。}

看來野心不小。要知道，當前 AI 影片生成領域仍在短影片階段摸索，大多數模型僅能生成十幾秒的內容。即便是少數能達到 3 分鐘的作品，通常也只能應付單個主角。

就算是單一主體，維持目標一致性也是巨大挑戰。就連 Sora 這樣的頂級模型也存在類似問題。

在這個廣為流傳的影片中，提示詞設定的是一隻鸚鵡，結果突然變成多隻。當鸚鵡與猴子發生交集，動物特徵開始混亂：

鸚鵡的翅膀扭曲了，後來頭也沒了。猴子呢？一隻長出了鸚鵡腳趾，另一隻居然有了鸚鵡的尾巴。

^{提示詞：An overhead view of a parrot flying through a verdant Costa Rica jungle, then landing on a tree branch to eat a piece of fruit with a group of monkeys. Golden hour, 35mm film.}

而隨著影片時長延長、主體數量增加，一致性難度會呈指數級上升。但從 VBench 評測榜單可見，TeleAI 的模型在主體一致性（subject consistency）方面表現出色，對付這一技術難點自然有一手。

從大會展示的影片效果看，四位女主角在多場景切換中保持了高度的形象穩定性，也印證了這一點。

^{各個影片片段都能夠保持主體外觀的一致性}

下面兩個影片展示了影片生成大模型在多場景連續性上的實力。

從公交車、大街，再到酒吧和餐廳，目標主體的外觀始終保持一致：面部特徵（包括佩戴墨鏡）、服裝、髮型都很穩定，沒有出現不連貫的情況。 VBench直接幹到了第一！這一次，影片生成「壓番」全場的是家央企

從坐在教室聽課的學生到穿學士服領畢業證，服裝、造型隨著場景在變，但一眼就能認出「這就是那個姑娘」。

更值得注意的是，憑藉強大的語義表達能力，模型還展現出了類似 Sora 的鏡頭排程能力。

它能在一個影片中建立多個鏡頭，並準確保留角色特徵和視覺風格。這種多鏡頭敘事的手法讓畫面具有了強烈的電影敘事感。

這段 AI 演練影片也展現了令人印象深刻的多鏡頭敘事。

一會兒在天上俯拍，把整個艦隊盡收眼底；一會兒從航母甲板上，特寫艦載機起飛的瞬間。還有從攝影船上水平拍攝、空中跟拍，甚至水下拍攝。

一套「組合拳」打下來，確實玩出了大片的味道。 VBench直接幹到了第一！這一次，影片生成「壓番」全場的是家央企

事實上，與目前 Sora 生成的默片相比，這個 AI 演練作品還有一個更勝一籌的地方。

Sora 雖然在畫面生成上表現出色，但缺少聲音確實削弱了影片的感染力。TeleAI 影片生成大模型在這方面實現了突破，能夠同步生成與畫面完美契合的音訊效果。

不過，當前的影片大模型除了要應對目標一致性的挑戰，還面臨著一個更基礎的問題：對物理規律和常識的理解還很膚淺。這導致它們經常翻車。

人在跑步機上莫名其妙地倒著跑。

體育影片更是重災區。體操運動員四肢橫飛、身體扭曲、與單槓、墊子的互動完全脫離物理法則，場面非常恐怖。

TeleAI 影片生成大模型在遵循物理和常識方面展現出突出實力，在 VBench 測試中的人體動作和物體分類兩項指標都拿下了滿分。

就說這個跳水片段。人物從懸崖邊騰空到入水的整個過程，動作姿態流暢自然，符合物理定律，也沒有 AI 生成常見的扭曲變形。懸崖邊的浪花效果也很逼真。 VBench直接幹到了第一！這一次，影片生成「壓番」全場的是家央企

^{TeleAI 開發者大會秀出的影片中，女主躍入大海時，肢體沒有橫飛和扭曲。}

跳水還只是單人專案，再看這段打戲，難度可就更大了。

一個是動作要協調。兩個人打起來，一個出拳另一個要躲，動作配合要天衣無縫。其次，距離感也得把握好，打近了怕穿模，太遠又顯得夠不著。 VBench直接幹到了第一！這一次，影片生成「壓番」全場的是家央企

這段影片展現了 AI 在多主體互動場景中的出色表現。

武器碰撞、進攻防守都很到位，真假美猴王和武器也沒有穿模，打鬥場面比較自然流暢。即使在高速運動中，美猴王的外貌、服裝和武器也沒走樣。

回看此前的 AI 演練影片，模型在多主體場景的物理模擬方面同樣表現出色。

無論是空中編隊飛行，還是多個主體的動態位置和姿態，都保持了合理的空間關係，避免了穿模問題。

火焰和煙霧的形態與擴散過程，也都嚴格遵循物理規律，呈現出真實可信的視覺效果。

而這個摘頭盔的片段，特別能說明大模型處理複雜動作序列時的能力。 VBench直接幹到了第一！這一次，影片生成「壓番」全場的是家央企

人的手指與頭盔的互動準確自然，摘頭盔時頭髮的晃動效果逼真，整個動作序列顯得連貫流暢。畫面中沒有出現「六指」或手指穿模等常見缺陷。

場景的遠近層次感也處理得當。遠處的火山爆發場景自然虛化，而近處的人物保持清晰，使整個畫面看起來層次分明又不顯呆板。

應用為王：從影片到短劇平臺

TeleAI 在保持目標主體一致性和還原真實世界細節方面的突破性進展，可不僅僅是為了玩影片生成，他們盯上了一塊更大的蛋糕：AI 短劇市場。

短劇近年來太火，開啟 App Store ，榜首基本被短劇應用霸佔。使用者就愛這種幾分鐘的「快餐」，劇情快，看著過癮。

要說市場規模，去年短劇就已經到了 373.9 億，比前年暴增 267.65% 。這數字已經頂得上電影票房的七成了。今年預計還要突破 500 億，直逼電影市場。

^{周星馳出品的《金豬玉葉》6月在抖音上線，短短几天播放量就衝破3000萬，這部劇總共24集，每集也就5分鐘左右，整個拍攝週期才用了13天。}

目前已有創作者使用 AI 製作短影片，一些作品播放量輕鬆突破百萬。業內普遍看好影片生成在中國的發展前景，認為 AI 將為短影片產業，特別是短劇行業帶來重大機遇。

不過，要說用 AI 拍完整短劇，還有不少坑要填。短劇製作很複雜，要搞定劇本、人物、影片、音訊，最後還得串成完整的故事。現在創作者得在各種 AI 工具間倒騰，連 Sora 都做不到「一條龍」服務。

TeleAI 在這件事上拿出了態度：

他們已經完成了語義、語音、視覺、多模態等技術的全模態佈局，目標是將這些能力整合，實現使用者輸入故事構思即可「一鍵生成」短劇的願景。

在具體實現上，他們的星辰大模型可將創意構思轉化為成熟劇本，透過文生圖技術塑造人物形象，根據劇本生成分鏡圖，最後基於這些素材生成外觀統一、情節連貫的影片片段，最終合成完整短劇。

就拿這個影片模型來說，為了做短劇，TeleAI 沒跟著 Sora 走一樣的路，而是另起爐灶，全自研了二階段影片生成技術 VAST。

透過兩階段生成框架——先畫分鏡，再生成影片，這項關鍵技術顯著提升了短劇創作過程的可控性。

說得更具體一些。

第一階段就像導演畫分鏡，藉助多模態大模型和自迴歸技術，將文字描述轉換成一系列分鏡頭。這些「分鏡」包含了人物姿勢、場景分佈、遠近關係等關鍵資訊，相當於給後面的影片生成打好了草稿。

第二階段如同真實拍攝，讓擴散模型根據這些「分鏡」開始生成影片畫面。透過將「分鏡」作為條件輸入，並結合文字描述和目標主體的外觀特徵，生成能夠精準控制主體位置、動作和外觀的影片內容。

比如短劇的一場打戲，大模型會先規劃出完整的動作編排：從出手角度、躲閃走位到環境互動，都在分鏡中預先設定。

當系統生成實際畫面時，就能嚴格按照這份草稿來呈現，確保每個出招防守都準確到位，武打場面既符合物理規律，又富有觀賞性。

^{實現對複雜動作的精確控制}

TeleAI 影片生成大模型的進化仍在加速。它的下一步規劃令人期待：多目標控制、鏡頭運動、3D 渲染全面升級。而這一切，都將在即將到來的一站式 AI 短劇平臺中實現。

想象一下：一個創意、一臺電腦，就能完成從劇本創作到影片生成的全流程。當 Sora 還在實驗室裡磨練時，為什麼不先來嘗試已經觸手可及的創作利器？

對於每個懷揣故事夢想的創作者來說，TeleAI 正在讓「一個人拍一部劇」成為現實。這扇通向 AI 短劇時代的大門已經開啟，而你，準備好成為下一個創作先鋒了嗎？

VBench評測第一，5周訪問量暴增8倍多! 這款國產AI影片生成器「壓番」Runway
2024-10-11
AI
Luma、Runway輪番炸場，影片生成卷出新高度，Sora還能稱霸嗎？來這場WAIC影片生成論壇尋找答案
2024-06-21
SoraAI
幹掉 Postman？測試介面直接生成API文件，這個工具賊好用
2021-07-16
PostmanAPI
第一次做“二次元”，這家超休閒廠商就拿到了TapTap8.6分
2021-07-07
二次元APT
還有這事？竟然吃到了自己家的瓜
2022-04-27
通義萬相影片生成重磅升級，成功登頂VBench，運鏡、質感直達專業級
2025-01-09
六家央企簽訂合作框架協議正式組建央企供應鏈聯盟
2018-03-02
框架協議
坐上無人車在黑夜的中國高速上"飛馳"，竟然是這番感覺！| 獨家
2019-06-12
全鏈路壓測(4)：全鏈路壓測的價值是什麼？
2022-01-08
多重可控插幀影片生成編輯，Adobe這個大一統模型做到了，效果驚豔
2025-02-03
模型
裁員，這一次終於輪到了我
2024-09-25
希望三個月後還是這番熱情！
2020-10-11
我，第一次做專案經理，幹賠了
2021-04-06
Spring中這麼重要的AnnotationAwareAspectJAutoProxyCreator類是幹嘛的？
2021-07-11
Spring
329篇影像、影片生成論文，今年CVPR最火的研究主題是這些
2024-06-09
央國企需求場景釋出，共議 AI 賦能產業融通，盡在WAIC這場論壇
2024-06-06
AI產業
買水果, 逛鞋店, 改造超市, 這是屬於「騰訊智慧零售」的另一番體驗|獨家
2018-05-25
幹工第一天，這個api超時優化把我幹趴下了!
2022-02-14
API優化
這是我第一次安利一款“一鍵超神”的遊戲本
2019-05-15
遊戲
上雲賦智的企業們，也許是這屆618的最大贏家
2021-06-18
幹啥啥都行，這次又拿了第一名！
2022-11-03
大廠掀起影片生成「軍備競賽」，AI 真能幹掉好萊塢？
2024-07-15
AI
記一次centos7核心可能意外丟失（測試直接幹掉）恢復方法
2019-02-21
CentOS
Windows直接解壓的方式安裝redis
2024-11-14
WindowsRedis
全國唯一！這家企業的工業網際網路平臺上雲啦！
2022-05-12
61％的開發者認為薪水過低，特別是這20家企業！
2018-07-26
怎麼把影片壓縮？實用又簡單的壓縮影片方法
2021-04-19
Complete the Sequence (生成完整序列數）第一次做英文c++的題
2024-10-27
C++
如何把影片壓縮，影片壓縮軟體哪個最好
2019-07-24
Java是幹嘛的呢？
2021-09-14
Java
效能測試 —— 什麼是全鏈路壓測？
2024-03-15
什麼？這廢土世界居然是生成的？
2019-11-06
阿里原來是這麼幹的！Spring Boot 五種熱部署方式
2020-04-06
阿里Spring Boot熱部署
運維到底是幹什麼的？看完這篇你就懂了
2021-03-04
運維
第一次全國程式設計師人口普查
2018-10-24
程式設計師
這是自己的第一篇部落格
2018-08-11
這是我的第一篇部落格
2021-01-03
生活隨筆：第一次見家長注意事項
2018-06-24

VBench直接幹到了第一！這一次，影片生成「壓番」全場的是家央企

這個影片生成大模型有多能打？

它算是把物理玩明白了

應用為王：從影片到短劇平臺

相關文章