別急著捧殺谷歌Veo2，畢竟曾被吹上天的Sora也翻了車

AI好好用發表於2024-12-19

原文網址 : https://www.jiqizhixin.com/articles/2024-12-19-8

谷歌Sora

AI好好用報導

編輯：楊文

為了考住Veo2,也是難為人類了。

總被 OpenAI 壓著打的谷歌，終於揚眉吐氣了！

最近，谷歌連上幾款大模型，個個備受好評。

先是推出最強 AI 大模型 Gemini 2.0，接著又官宣了 AI 影片生成模型 Veo2，直接對著 OpenAI 的 Sora 貼臉開大。

據介紹，Veo2 能生成 2 分鐘以上時長、4k 解析度的影片，也能理解提示詞中的相機控制指令，還能重建出符合真實世界的物理互動和人臉表情。

同時，在基於人類評估者的對比評估中整體表現遠超對手。

（該圖也側面顯示，在 AI 影片生成模型方面，中國真的衝到了第一梯隊，成為谷歌也不容小覷的對手）

一眾大佬也齊刷刷為其站臺。

官方給出的演示影片也相當驚豔。

《權力與遊戲》中的龍在高樓大廈間穿梭，這效果是不是吊打不少視覺特效師？

（影片來自X博主@shlomifruchter）

一隻貓對著鏡子中的自己咆哮，但它看到的卻是自己像獅子一樣在吼叫：

（Prompt:A cat roars while looking at its reflection in the mirror but instead sees itself as a lion roaring.）

谷歌 DeepMind 研究員 @babaeizadeh 還製作了一系列動畫風格的土豆小人情景喜劇。

（Prompt:anime style footage of two potatoes having a sword fight. cinematic, fastpaced with a lot of shotcuts.)

不過，與幾個月之前的 Sora 類似，Veo2 目前也尚未對公眾開放。

這也意味著，社交平臺上的 Veo2 生成影片，要麼時官方精挑細選出來的，要麼是科技博主們一手評測出來的。

此外，這些放出來的影片時長均為 8 秒，解析度也不超過 720p。

Veo2 的實際效果究竟如何？

我們或許可以從科技博主的測評影片中找到一些端倪。

-1-

Veo2 也逃不過翻車的命運嗎？

目前，已經有不少國外科技博主拿到了 Veo2 試用「門票」，並在社交平臺上放出來各種測評影片。

從這些測評影片中，我們發現Veo2 確實進步一大截，但也存在不少老生常談的問題。

並未完全理解物理世界

X 博主 @shlomifruchter 是谷歌 Deepmind Veo 的聯合負責人。

他用 Veo2 生成了一系列將水果扔進水裡的影片。

比如，把幾顆飽滿的藍莓丟進水中，無論是藍莓入水後的浮沉，還是泛起的水泡、濺起的水花，乍一看都沒毛病，但一細究就會發現杯子的水位並沒有上升。

（影片來自 X 博主 @shlomifruchter）

再比如鐵球垂直砸入裝滿硬幣的盒子，最初的「爆炸性」運動生成得很真實，但在「飛」走很多硬幣後，盒子裡又冒出了比開始還多的硬幣。

（影片來自谷歌 DeepMind 成員.@hhm）

DeepMind 研究科學家 @MattMcGill_評論稱，在沒有感官反饋的情況下，影片生成模型很難像人類一樣準確地模擬和修正物理現象，從而導致生成的影片中出現許多物理錯誤。

這就像在缺乏感官基礎的夢境中，人可以漂浮著下樓梯，物體之間可以隨意轉換，時間可以變得非線性等。

並未嚴格遵循提示詞

風投公司 a16z 合夥人 Justine Moore 也測試了幾個 Prompt。

其中一個Prompt：giraffe librarian in a sweater and jeans putting books back on a shelf.（穿著毛衣和牛仔褲的長頸鹿圖書管理員把書放回書架上。）

對於這個長頸鹿圖書管理員的穿著，Veo2 領悟得很到位，但它並沒有把書放回書架。

Justine Moore 在回覆中表示，有 25% 到 50% 的情況下模型能夠成功地完成任務或給出正確的結果。它在處理複雜任務、運動量大的場景以及分佈外推理方面的能力有了顯著提升，但仍有改進空間。

谷歌 DeepMind 成員@hhm 輸入 Prompt: Bear writing the solution to 2x-1=0. But only the solution!（熊在寫解方程 2x - 1 = 0 的解，但只寫解！）

（影片來自 X 博主 @hhm）

黑板上確實呈現出正確的答案，只不過小熊並沒有在寫字，它只是拿著一塊黑板而已。

手部細節生成異常

在某些細節方面，Veo2 也經不起推敲。

比如這個女孩在雲端跳舞的影片，眼尖的觀眾會發現畫面驚現三條胳膊。

還有下面這個一群人圍坐在一起吃火鍋的片段，右側穿紅衣服的女生一度出現 4 根手指，左下角的男生手部則不斷扭曲虛化。

（Prompt：zoom out from hotpot to a group of friends eating.）

搞不定複雜的體育動作

對於 AI 來說，生成體操動作仍是一大難題。

這是因為 AI 需要能夠捕捉到運動員在空中的旋轉、翻轉等動作，並且生成的影片要保持流暢和連貫。

同時運動員在翻轉時可能出現身體部位的相互遮擋，這增加了模型生成影片時處理遮擋關係的難度。

下面這個 Veo2 生成的體操動作影片就是一個失敗的案例：重力失靈、運動員騰空翻轉時身體不正常扭曲等。

X 博主 @jerrod_lew 釋出了一個 Veo2 生成的體育類影片合集，裡面有多處詭異的情形。

網球拍擊球的角度不正確，背後的力度看起來不夠；跑步者的手突然反向運動，使得生成的動作不自然、不符合人體運動規律等。

別急著捧殺谷歌Veo2，畢竟曾被吹上天的Sora也翻了車

（影片來自 X 博主 @jerrod_lew）

還有這個機器人和人類踢足球的影片，人類和機器人的手臂會互相穿過；在無人觸碰的情況下，球會自己旋轉移動等。

（Prompt:Soccer of the future, mixing people and robots. This is a fragment from a 2024 cinematic movie.）

-2-

國外科技博主橫評

不少博主還發布了 Veo 2 和其他影片生成模型對比的影片。

Prompt: A pair of hands skillfully slicing a ripe tomato on a wooden cutting board.
提示詞：雙手熟練地在木菜板上切成熟的蕃茄。

別急著捧殺谷歌Veo2，畢竟曾被吹上天的Sora也翻了車

Prompt: An astronaut exploring an underwater alien shipwreck.

提示詞：宇航員探索水下外星沉船。

別急著捧殺谷歌Veo2，畢竟曾被吹上天的Sora也翻了車

Prompt：A bartender making an old-fashioned cocktail.

提示詞：調酒師正在調製老式雞尾酒。

別急著捧殺谷歌Veo2，畢竟曾被吹上天的Sora也翻了車

Prompt: A video of a person sitting in a cafe with a coffee. After a bit, cuts to another viewpoint to reveal that a person nearby table is writing a letter to them.
提示詞：一個人坐在咖啡館喝咖啡的影片。過了一會兒，切到另一個視角，發現旁邊桌子上的一個人正在給他們寫信。

別急著捧殺谷歌Veo2，畢竟曾被吹上天的Sora也翻了車

Prompt: A sloth playing a game of Jenga made of a bunch of donuts.
提示詞：一隻樹懶正在玩由一堆甜甜圈製成的 Jenga 遊戲。

Prompt: a tracking shot, follows an ice skater gliding across an ice rink that appears to be floating amidst the clouds.
提示詞：跟蹤鏡頭，一名滑冰者滑過溜冰場，溜冰場漂浮在雲層中。