高難度武打影片,也能「手拿把掐」。
這個影片生成大模型有多能打?
TeleAI-VAST在VBench榜單上表現亮眼。
專案連結:https://huggingface.co/spaces/Vchitect/VBench_Leaderboard
影片質量同樣出色,以 88.60% 的總分獨佔鰲頭。無論是畫面穩定性、時序連貫性,還是視覺風格的把控,均表現不俗。
它算是把物理玩明白了
作為中國電信 2024 年數字科技生態大會的重要環節,今天的 TeleAI 開發者大會展示了一段令人印象深刻的 AI 影片。
這段 3 分鐘的影片不僅能從容駕馭 4 個主角,還能流暢切換多個場景。
提示詞:An overhead view of a parrot flying through a verdant Costa Rica jungle, then landing on a tree branch to eat a piece of fruit with a group of monkeys. Golden hour, 35mm film.
而隨著影片時長延長、主體數量增加,一致性難度會呈指數級上升。但從 VBench 評測榜單可見,TeleAI 的模型在主體一致性(subject consistency)方面表現出色,對付這一技術難點自然有一手。
從大會展示的影片效果看,四位女主角在多場景切換中保持了高度的形象穩定性,也印證了這一點。
下面兩個影片展示了影片生成大模型在多場景連續性上的實力。
從公交車、大街,再到酒吧和餐廳,目標主體的外觀始終保持一致:面部特徵(包括佩戴墨鏡)、服裝、髮型都很穩定,沒有出現不連貫的情況。
從坐在教室聽課的學生到穿學士服領畢業證,服裝、造型隨著場景在變,但一眼就能認出「這就是那個姑娘」。
更值得注意的是,憑藉強大的語義表達能力,模型還展現出了類似 Sora 的鏡頭排程能力。
它能在一個影片中建立多個鏡頭,並準確保留角色特徵和視覺風格。這種多鏡頭敘事的手法讓畫面具有了強烈的電影敘事感。
這段 AI 演練影片也展現了令人印象深刻的多鏡頭敘事。
一會兒在天上俯拍,把整個艦隊盡收眼底;一會兒從航母甲板上,特寫艦載機起飛的瞬間。還有從攝影船上水平拍攝、空中跟拍,甚至水下拍攝。
一套「組合拳」打下來,確實玩出了大片的味道。
事實上,與目前 Sora 生成的默片相比,這個 AI 演練作品還有一個更勝一籌的地方。
Sora 雖然在畫面生成上表現出色,但缺少聲音確實削弱了影片的感染力。TeleAI 影片生成大模型在這方面實現了突破,能夠同步生成與畫面完美契合的音訊效果。
不過,當前的影片大模型除了要應對目標一致性的挑戰,還面臨著一個更基礎的問題:對物理規律和常識的理解還很膚淺。這導致它們經常翻車。
人在跑步機上莫名其妙地倒著跑。
體育影片更是重災區。體操運動員四肢橫飛、身體扭曲、與單槓、墊子的互動完全脫離物理法則,場面非常恐怖。
TeleAI 影片生成大模型在遵循物理和常識方面展現出突出實力,在 VBench 測試中的人體動作和物體分類兩項指標都拿下了滿分。
就說這個跳水片段。人物從懸崖邊騰空到入水的整個過程,動作姿態流暢自然,符合物理定律,也沒有 AI 生成常見的扭曲變形。懸崖邊的浪花效果也很逼真。
TeleAI 開發者大會秀出的影片中,女主躍入大海時,肢體沒有橫飛和扭曲。
跳水還只是單人專案,再看這段打戲,難度可就更大了。
一個是動作要協調。兩個人打起來,一個出拳另一個要躲,動作配合要天衣無縫。其次,距離感也得把握好,打近了怕穿模,太遠又顯得夠不著。
這段影片展現了 AI 在多主體互動場景中的出色表現。
武器碰撞、進攻防守都很到位,真假美猴王和武器也沒有穿模,打鬥場面比較自然流暢。即使在高速運動中,美猴王的外貌、服裝和武器也沒走樣。
回看此前的 AI 演練影片,模型在多主體場景的物理模擬方面同樣表現出色。
無論是空中編隊飛行,還是多個主體的動態位置和姿態,都保持了合理的空間關係,避免了穿模問題。
火焰和煙霧的形態與擴散過程,也都嚴格遵循物理規律,呈現出真實可信的視覺效果。
而這個摘頭盔的片段,特別能說明大模型處理複雜動作序列時的能力。
人的手指與頭盔的互動準確自然,摘頭盔時頭髮的晃動效果逼真,整個動作序列顯得連貫流暢。畫面中沒有出現「六指」或手指穿模等常見缺陷。
場景的遠近層次感也處理得當。遠處的火山爆發場景自然虛化,而近處的人物保持清晰,使整個畫面看起來層次分明又不顯呆板。
應用為王:從影片到短劇平臺
TeleAI 在保持目標主體一致性和還原真實世界細節方面的突破性進展,可不僅僅是為了玩影片生成,他們盯上了一塊更大的蛋糕:AI 短劇市場。
短劇近年來太火,開啟 App Store ,榜首基本被短劇應用霸佔。使用者就愛這種幾分鐘的「快餐」,劇情快,看著過癮。
要說市場規模,去年短劇就已經到了 373.9 億,比前年暴增 267.65% 。這數字已經頂得上電影票房的七成了。今年預計還要突破 500 億,直逼電影市場。
目前已有創作者使用 AI 製作短影片,一些作品播放量輕鬆突破百萬。業內普遍看好影片生成在中國的發展前景,認為 AI 將為短影片產業,特別是短劇行業帶來重大機遇。
不過,要說用 AI 拍完整短劇,還有不少坑要填。短劇製作很複雜,要搞定劇本、人物、影片、音訊,最後還得串成完整的故事。現在創作者得在各種 AI 工具間倒騰,連 Sora 都做不到「一條龍」服務。
TeleAI 在這件事上拿出了態度:
他們已經完成了語義、語音、視覺、多模態等技術的全模態佈局,目標是將這些能力整合,實現使用者輸入故事構思即可「一鍵生成」短劇的願景。
在具體實現上,他們的星辰大模型可將創意構思轉化為成熟劇本,透過文生圖技術塑造人物形象,根據劇本生成分鏡圖,最後基於這些素材生成外觀統一、情節連貫的影片片段,最終合成完整短劇。
就拿這個影片模型來說,為了做短劇,TeleAI 沒跟著 Sora 走一樣的路,而是另起爐灶,全自研了二階段影片生成技術 VAST。
透過兩階段生成框架——先畫分鏡,再生成影片,這項關鍵技術顯著提升了短劇創作過程的可控性。
說得更具體一些。
第一階段就像導演畫分鏡,藉助多模態大模型和自迴歸技術,將文字描述轉換成一系列分鏡頭。這些「分鏡」包含了人物姿勢、場景分佈、遠近關係等關鍵資訊,相當於給後面的影片生成打好了草稿。
第二階段如同真實拍攝,讓擴散模型根據這些「分鏡」開始生成影片畫面。透過將「分鏡」作為條件輸入,並結合文字描述和目標主體的外觀特徵,生成能夠精準控制主體位置、動作和外觀的影片內容。
比如短劇的一場打戲,大模型會先規劃出完整的動作編排:從出手角度、躲閃走位到環境互動,都在分鏡中預先設定。
當系統生成實際畫面時,就能嚴格按照這份草稿來呈現,確保每個出招防守都準確到位,武打場面既符合物理規律,又富有觀賞性。
TeleAI 影片生成大模型的進化仍在加速。它的下一步規劃令人期待:多目標控制、鏡頭運動、3D 渲染全面升級。而這一切,都將在即將到來的一站式 AI 短劇平臺中實現。
想象一下:一個創意、一臺電腦,就能完成從劇本創作到影片生成的全流程。當 Sora 還在實驗室裡磨練時,為什麼不先來嘗試已經觸手可及的創作利器?
對於每個懷揣故事夢想的創作者來說,TeleAI 正在讓「一個人拍一部劇」成為現實。這扇通向 AI 短劇時代的大門已經開啟,而你,準備好成為下一個創作先鋒了嗎?