騰訊版Sora來了!我們搶先實測:最懂鏡頭的AI,有《花樣年華》那味了

AI好好用發表於2024-11-29

AI好好用報導

編輯:楊文

騰訊混元生成的AI電影鏡頭,讓我想到《天使愛美麗》、《花樣年華》。

從上週六開始,AI 影片圈又炸鍋了。

先是 Runway 三天上新兩次,Luma 全力狙擊;緊接著 Sora 意外洩露三小時,網友們瘋狂整活。

國內的 AI 廠商也沒閒著。

最讓人驚喜的是,騰訊混元å也下場搞影片生成模型了。

圖片

目前,該影片模型已經開啟小範圍內測。我們在第一時間拿到體驗資格。

與其他影片生成模型類似,僅需輸入一句提示詞,騰訊混元就能生成一段 5 秒影片。

它支援中英文輸入,還有 5 種畫面尺寸可供選擇。

先放幾個影片給大家「嚐嚐鮮」:

繁華的巴黎,一個頭戴棕色貝雷帽的男人正坐在咖啡館裡沉思。

騰訊版Sora來了!我們搶先實測:最懂鏡頭的AI,有《花樣年華》那味了

一位年輕時髦的女人走向窗邊,然後轉身凝視旁邊的男人,動作流暢自然。

騰訊版Sora來了!我們搶先實測:最懂鏡頭的AI,有《花樣年華》那味了

兩位小姐姐坐在街邊相顧無言,鏡頭切換、人物神態簡直和電影別無二致。

圖片

接下來,我們就全方位測評一番。


-1-

畫質

不得不說,混元影片模型生成的畫面太有電影感了。

提示詞:一個電影般的背後跟隨鏡頭,拍攝一名女警背對著我們穿過夜晚的事故現場。

騰訊版Sora來了!我們搶先實測:最懂鏡頭的AI,有《花樣年華》那味了畫質高畫質穩定,人物動作流暢。四處停放的警車,閃爍的警燈,勘查現場的警察…… 好萊塢元素拉滿。

提示詞:一個電影般的背後跟隨鏡頭,拍攝消防員背對著我們穿過熊熊烈火。

生成三個鏡頭,每個鏡頭都很有故事性。

圖片

圖片

圖片

混元很會控制景深。虛化的背景,讓主體運動更加突出,火焰的光影在消防員身上舞動,形成一種強烈的視覺衝擊。

再來個科幻風格的電影。

提示詞:夜晚,一個機器人正行走在繁華的大街上,昏暗,近景鏡頭,科幻,生動,賽博朋克,高質量。

騰訊版Sora來了!我們搶先實測:最懂鏡頭的AI,有《花樣年華》那味了

這個長得像擎天柱一樣的機器人,漫步在人潮湧動的大街上,腦袋還時不時左右張望。

鏡頭隨著機器人的移動而微微晃動,使得畫面更具真實感。

提示詞:一個男人坐在咖啡廳裡喝咖啡,柔和,近景鏡頭,休閒,現代,電影風格,高質量。

騰訊版Sora來了!我們搶先實測:最懂鏡頭的AI,有《花樣年華》那味了

影片中,男人從端起咖啡、抿了一口到緩緩放下杯子,整套動作一氣呵成。

男人的眼神、表情也生成得很是逼真,手指也沒出現明顯的 bug。


-2-

鏡頭切換

混元最值得稱道的,還是原生鏡頭切換效果。

它能夠自動生成同一主體在不同視角下的鏡頭,並在影片中進行切換,以增強畫面的敘事感。

要知道,在此之前,只有 Sora 具備這種鏡頭切換效果。

比如下面這個影片中,最初是個中景鏡頭,女人正手撐下巴思考,啪一下鏡頭轉換成女人面部大特寫,深邃眼眸、烈焰紅唇,再接著,鏡頭又切換到城市街景。

騰訊版Sora來了!我們搶先實測:最懂鏡頭的AI,有《花樣年華》那味了

(提示詞:一個極端特寫鏡頭,聚焦於一位時髦的美麗女性,她坐在咖啡館裡,深陷沉思,鏡頭切換到城市的街景,景深效果,電影般的 35 毫米膠片質感,光線非常具有電影感。)

再如,雨滴打在玻璃上緩緩滑落,下一秒鏡頭就轉到窗外,男人撐著一把紅色的傘站在大街上,整個畫面很有氛圍感。

騰訊版Sora來了!我們搶先實測:最懂鏡頭的AI,有《花樣年華》那味了

(提示詞:雨滴敲打著窗戶,鏡頭切換到下雨的大街上,有個男人正撐著一把紅色的傘,站在大街上 Overcast Somber Cinematic High-quality Modern Style)



-3-

運動效果

流暢的影片運動可以提供更加連貫和平滑的視覺體驗,能夠增強角色動作的真實感,因此,各家的影片生成模型均在畫面運動上「做文章」,騰訊混元也不例外。

他們在運動一致性方面下了功夫,減少了物體變形和運動不連貫的問題。

提示詞:日落時分,一隻烏龜在黑色沙灘上爬行。

圖片

雖然混元生成的畫面運動幅度大,但海龜爬行的動作,以及沙灘場景變化自然真實,沒有突兀的跳躍和不連貫。

我們又用 Sora 經典提示詞試了下。

提示詞:A litter of golden retriever puppies playing in the snow. Their heads pop out of the snow, covered in.


中文提示詞:一窩金毛獵犬小狗在雪地裡玩耍。它們的頭從雪地裡冒出來,渾身都是雪。

圖片

兩隻小狗抬爪子、啃咬的動作很逼真,身上的雪花也隨著打架的動作抖落。

此外,它還能生成包含多個連貫動作的影片。

提示詞:男人走出臥室,關上門,看到一隻可愛的毛茸茸的生物。

騰訊版Sora來了!我們搶先實測:最懂鏡頭的AI,有《花樣年華》那味了

提示詞:女人摘下墨鏡,看著對面的男人笑了,光線柔和,愉快,現代,電影風格,高質量。

騰訊版Sora來了!我們搶先實測:最懂鏡頭的AI,有《花樣年華》那味了



-4-

語義理解

混元影片生成能力對提示詞撰寫的精細度與準確度要求較高。使用者可以進行細緻的刻畫,例如生成主體的細節,人物概念的組合等。

面對又長又複雜的文字描述,混元基本能 get 到資訊並進行輸出。

提示詞:一支穿著厚重冬季裝備的極地探險隊,在呼嘯的暴風雪中艱難前行,幾乎無法透過雪花看清彼此,冰柱附著在他們的鬍鬚和派克服上,他們的臉上顯露出堅定的決心,攝像機捕捉到一箇中景鏡頭,展示了他們周圍風暴的強度,寒冷、柔和的光線增添了一種孤立和堅韌的感覺。

騰訊版Sora來了!我們搶先實測:最懂鏡頭的AI,有《花樣年華》那味了

提示詞:日出時分,色彩鮮豔的熱氣球飄過廣闊的非洲大草原,成群的大象和瞪羚在下方的草原上移動。遠處,乞力馬扎羅山的影子映襯著粉紅色和橙色的天空。

圖片

經過多輪測評,總體來說混元影片生成模型還是有些本事傍身的,尤其是電影級畫質和原生鏡頭切換,效果相當能打。

和其他影片生成模型一樣,它也有不少小「毛病」。比如,每次生成內容具有不確定性,生成結果無法達到 100% 可控,同時輸入多個實體,可能不會都生成出來,顏色和數量也未必匹配等。

不過混元大模型仍在升級和除錯中,未來或許有更好的表現。

以後我們會帶來更多好玩的AI應用,也歡迎大家進群交流。

文中影片連結:https://mp.weixin.qq.com/s/cwoCu1umcJrRxhGLZLHYOw

圖片

相關文章