別急著捧殺谷歌Veo2,畢竟曾被吹上天的Sora也翻了車

AI好好用發表於2024-12-19

AI好好用報導

編輯:楊文
為了考住Veo2,也是難為人類了。

總被 OpenAI 壓著打的谷歌,終於揚眉吐氣了!

最近,谷歌連上幾款大模型,個個備受好評。

先是推出最強 AI 大模型 Gemini 2.0,接著又官宣了 AI 影片生成模型 Veo2,直接對著 OpenAI 的 Sora 貼臉開大。

據介紹,Veo2 能生成 2 分鐘以上時長、4k 解析度的影片,也能理解提示詞中的相機控制指令,還能重建出符合真實世界的物理互動和人臉表情。

同時,在基於人類評估者的對比評估中整體表現遠超對手。

圖片(該圖也側面顯示,在 AI 影片生成模型方面,中國真的衝到了第一梯隊,成為谷歌也不容小覷的對手)

一眾大佬也齊刷刷為其站臺。

圖片

官方給出的演示影片也相當驚豔。

《權力與遊戲》中的龍在高樓大廈間穿梭,這效果是不是吊打不少視覺特效師?

圖片(影片來自X博主@shlomifruchter)

一隻貓對著鏡子中的自己咆哮,但它看到的卻是自己像獅子一樣在吼叫:

圖片
(Prompt:A cat roars while looking at its reflection in the mirror but instead sees itself as a lion roaring.)

谷歌 DeepMind 研究員 @babaeizadeh 還製作了一系列動畫風格的土豆小人情景喜劇。

圖片(Prompt:anime style footage of two potatoes having a sword fight. cinematic, fastpaced with a lot of shotcuts.)

不過,與幾個月之前的 Sora 類似,Veo2 目前也尚未對公眾開放。

這也意味著,社交平臺上的 Veo2 生成影片,要麼時官方精挑細選出來的,要麼是科技博主們一手評測出來的。

此外,這些放出來的影片時長均為 8 秒,解析度也不超過 720p。

Veo2 的實際效果究竟如何?

我們或許可以從科技博主的測評影片中找到一些端倪。


-1-

Veo2 也逃不過翻車的命運嗎?

目前,已經有不少國外科技博主拿到了 Veo2 試用「門票」,並在社交平臺上放出來各種測評影片。

從這些測評影片中,我們發現Veo2 確實進步一大截,但也存在不少老生常談的問題。

並未完全理解物理世界

X 博主 @shlomifruchter 是谷歌 Deepmind Veo 的聯合負責人。

他用 Veo2 生成了一系列將水果扔進水裡的影片。

比如,把幾顆飽滿的藍莓丟進水中,無論是藍莓入水後的浮沉,還是泛起的水泡、濺起的水花,乍一看都沒毛病,但一細究就會發現杯子的水位並沒有上升。

圖片(影片來自 X 博主 @shlomifruchter)

再比如鐵球垂直砸入裝滿硬幣的盒子,最初的「爆炸性」運動生成得很真實,但在「飛」走很多硬幣後,盒子裡又冒出了比開始還多的硬幣。

圖片

(影片來自谷歌 DeepMind 成員.@hhm)

DeepMind 研究科學家 @MattMcGill_評論稱,在沒有感官反饋的情況下,影片生成模型很難像人類一樣準確地模擬和修正物理現象,從而導致生成的影片中出現許多物理錯誤。

圖片

這就像在缺乏感官基礎的夢境中,人可以漂浮著下樓梯,物體之間可以隨意轉換,時間可以變得非線性等。

圖片

並未嚴格遵循提示詞

風投公司 a16z 合夥人 Justine Moore 也測試了幾個 Prompt。

其中一個Prompt:giraffe librarian in a sweater and jeans putting books back on a shelf.(穿著毛衣和牛仔褲的長頸鹿圖書管理員把書放回書架上。)

圖片

對於這個長頸鹿圖書管理員的穿著,Veo2 領悟得很到位,但它並沒有把書放回書架。

Justine Moore 在回覆中表示,有 25% 到 50% 的情況下模型能夠成功地完成任務或給出正確的結果。它在處理複雜任務、運動量大的場景以及分佈外推理方面的能力有了顯著提升,但仍有改進空間。

圖片

谷歌 DeepMind 成員@hhm 輸入 Prompt: Bear writing the solution to 2x-1=0. But only the solution!(熊在寫解方程 2x - 1 = 0 的解,但只寫解!)

圖片

(影片來自 X 博主 @hhm)

黑板上確實呈現出正確的答案,只不過小熊並沒有在寫字,它只是拿著一塊黑板而已。

手部細節生成異常

在某些細節方面,Veo2 也經不起推敲。

比如這個女孩在雲端跳舞的影片,眼尖的觀眾會發現畫面驚現三條胳膊。

圖片
還有下面這個一群人圍坐在一起吃火鍋的片段,右側穿紅衣服的女生一度出現 4 根手指,左下角的男生手部則不斷扭曲虛化。
圖片(Prompt:zoom out from hotpot to a group of friends eating.)

搞不定複雜的體育動作

對於 AI 來說,生成體操動作仍是一大難題。

這是因為 AI 需要能夠捕捉到運動員在空中的旋轉、翻轉等動作,並且生成的影片要保持流暢和連貫。

同時運動員在翻轉時可能出現身體部位的相互遮擋,這增加了模型生成影片時處理遮擋關係的難度。

下面這個 Veo2 生成的體操動作影片就是一個失敗的案例:重力失靈、運動員騰空翻轉時身體不正常扭曲等。

圖片

X 博主 @jerrod_lew 釋出了一個 Veo2 生成的體育類影片合集,裡面有多處詭異的情形。

網球拍擊球的角度不正確,背後的力度看起來不夠;跑步者的手突然反向運動,使得生成的動作不自然、不符合人體運動規律等。


別急著捧殺谷歌Veo2,畢竟曾被吹上天的Sora也翻了車

(影片來自 X 博主 @jerrod_lew)

還有這個機器人和人類踢足球的影片,人類和機器人的手臂會互相穿過;在無人觸碰的情況下,球會自己旋轉移動等。

圖片

(Prompt:Soccer of the future, mixing people and robots. This is a fragment from a 2024 cinematic movie.)


-2-

國外科技博主橫評

不少博主還發布了 Veo 2 和其他影片生成模型對比的影片。

Prompt: A pair of hands skillfully slicing a ripe tomato on a wooden cutting board.

提示詞:雙手熟練地在木菜板上切成熟的蕃茄。

別急著捧殺谷歌Veo2,畢竟曾被吹上天的Sora也翻了車

Prompt: An astronaut exploring an underwater alien shipwreck.

提示詞:宇航員探索水下外星沉船。

別急著捧殺谷歌Veo2,畢竟曾被吹上天的Sora也翻了車

Prompt:A bartender making an old-fashioned cocktail.

提示詞:調酒師正在調製老式雞尾酒。

別急著捧殺谷歌Veo2,畢竟曾被吹上天的Sora也翻了車

Prompt: A video of a person sitting in a cafe with a coffee. After a bit, cuts to another viewpoint to reveal that a person nearby table is writing a letter to them.

提示詞:一個人坐在咖啡館喝咖啡的影片。過了一會兒,切到另一個視角,發現旁邊桌子上的一個人正在給他們寫信。

別急著捧殺谷歌Veo2,畢竟曾被吹上天的Sora也翻了車


Prompt: A sloth playing a game of Jenga made of a bunch of donuts.

提示詞:一隻樹懶正在玩由一堆甜甜圈製成的 Jenga 遊戲。

別急著捧殺谷歌Veo2,畢竟曾被吹上天的Sora也翻了車
Prompt: a tracking shot, follows an ice skater gliding across an ice rink that appears to be floating amidst the clouds.

提示詞:跟蹤鏡頭,一名滑冰者滑過溜冰場,溜冰場漂浮在雲層中。

別急著捧殺谷歌Veo2,畢竟曾被吹上天的Sora也翻了車
Prompt: NYC drone footage. Hyperlapse during the night. Brooklyn bridge.

提示詞:紐約無人機鏡頭,夜間延時攝影,布魯克林大橋。

別急著捧殺谷歌Veo2,畢竟曾被吹上天的Sora也翻了車

X 博主 @blizaine 還用同一套提示詞分別測試了 Veo 2、Sora、Runway、Luma、Pika、hailuoAI、可靈 1.5、混元。

別急著捧殺谷歌Veo2,畢竟曾被吹上天的Sora也翻了車

儘管在科技博主的一番測評下,Veo2 吊打其他對手,但我們還是想說,先別急著下結論,畢竟曾經的 Sora 也一度被捧上天,最後還是逃不掉翻車的命運。

文中影片連結:https://mp.weixin.qq.com/s/Gzfq7QpMLjvrJCYpQX9vHA

參考連結:
https://x.com/blizaine/status/1868850653759783033
https://x.com/doomie/status/1868735125003157841
https://x.com/emollick/status/1868897308529787248
https://x.com/jerrod_lew/status/1868771525660381410
https://x.com/DaBrusi/status/1869019445550825680
https://x.com/venturetwins/status/1869112033817641161
https://x.com/agrimgupta92/status/1868745017571131582
https://x.com/shlomifruchter/status/1868741814985044257
https://x.com/AngryTomtweets/status/1868954948282503533

相關文章