AI好好用報導
為了考住Veo2,也是難為人類了。
總被 OpenAI 壓著打的谷歌,終於揚眉吐氣了!
最近,谷歌連上幾款大模型,個個備受好評。
先是推出最強 AI 大模型 Gemini 2.0,接著又官宣了 AI 影片生成模型 Veo2,直接對著 OpenAI 的 Sora 貼臉開大。
據介紹,Veo2 能生成 2 分鐘以上時長、4k 解析度的影片,也能理解提示詞中的相機控制指令,還能重建出符合真實世界的物理互動和人臉表情。
同時,在基於人類評估者的對比評估中整體表現遠超對手。
一眾大佬也齊刷刷為其站臺。
官方給出的演示影片也相當驚豔。
《權力與遊戲》中的龍在高樓大廈間穿梭,這效果是不是吊打不少視覺特效師?
一隻貓對著鏡子中的自己咆哮,但它看到的卻是自己像獅子一樣在吼叫:
谷歌 DeepMind 研究員 @babaeizadeh 還製作了一系列動畫風格的土豆小人情景喜劇。
(Prompt:anime style footage of two potatoes having a sword fight. cinematic, fastpaced with a lot of shotcuts.)
不過,與幾個月之前的 Sora 類似,Veo2 目前也尚未對公眾開放。
這也意味著,社交平臺上的 Veo2 生成影片,要麼時官方精挑細選出來的,要麼是科技博主們一手評測出來的。
此外,這些放出來的影片時長均為 8 秒,解析度也不超過 720p。
Veo2 的實際效果究竟如何?
我們或許可以從科技博主的測評影片中找到一些端倪。
-1-
Veo2 也逃不過翻車的命運嗎?
目前,已經有不少國外科技博主拿到了 Veo2 試用「門票」,並在社交平臺上放出來各種測評影片。
從這些測評影片中,我們發現Veo2 確實進步一大截,但也存在不少老生常談的問題。
並未完全理解物理世界
X 博主 @shlomifruchter 是谷歌 Deepmind Veo 的聯合負責人。
他用 Veo2 生成了一系列將水果扔進水裡的影片。
比如,把幾顆飽滿的藍莓丟進水中,無論是藍莓入水後的浮沉,還是泛起的水泡、濺起的水花,乍一看都沒毛病,但一細究就會發現杯子的水位並沒有上升。
再比如鐵球垂直砸入裝滿硬幣的盒子,最初的「爆炸性」運動生成得很真實,但在「飛」走很多硬幣後,盒子裡又冒出了比開始還多的硬幣。
(影片來自谷歌 DeepMind 成員.@hhm)
DeepMind 研究科學家 @MattMcGill_評論稱,在沒有感官反饋的情況下,影片生成模型很難像人類一樣準確地模擬和修正物理現象,從而導致生成的影片中出現許多物理錯誤。
這就像在缺乏感官基礎的夢境中,人可以漂浮著下樓梯,物體之間可以隨意轉換,時間可以變得非線性等。
並未嚴格遵循提示詞
風投公司 a16z 合夥人 Justine Moore 也測試了幾個 Prompt。
其中一個Prompt:giraffe librarian in a sweater and jeans putting books back on a shelf.(穿著毛衣和牛仔褲的長頸鹿圖書管理員把書放回書架上。)
對於這個長頸鹿圖書管理員的穿著,Veo2 領悟得很到位,但它並沒有把書放回書架。
Justine Moore 在回覆中表示,有 25% 到 50% 的情況下模型能夠成功地完成任務或給出正確的結果。它在處理複雜任務、運動量大的場景以及分佈外推理方面的能力有了顯著提升,但仍有改進空間。
谷歌 DeepMind 成員@hhm 輸入 Prompt: Bear writing the solution to 2x-1=0. But only the solution!(熊在寫解方程 2x - 1 = 0 的解,但只寫解!)
(影片來自 X 博主 @hhm)
黑板上確實呈現出正確的答案,只不過小熊並沒有在寫字,它只是拿著一塊黑板而已。
手部細節生成異常
在某些細節方面,Veo2 也經不起推敲。
比如這個女孩在雲端跳舞的影片,眼尖的觀眾會發現畫面驚現三條胳膊。
搞不定複雜的體育動作
對於 AI 來說,生成體操動作仍是一大難題。
這是因為 AI 需要能夠捕捉到運動員在空中的旋轉、翻轉等動作,並且生成的影片要保持流暢和連貫。
同時運動員在翻轉時可能出現身體部位的相互遮擋,這增加了模型生成影片時處理遮擋關係的難度。
下面這個 Veo2 生成的體操動作影片就是一個失敗的案例:重力失靈、運動員騰空翻轉時身體不正常扭曲等。
X 博主 @jerrod_lew 釋出了一個 Veo2 生成的體育類影片合集,裡面有多處詭異的情形。
網球拍擊球的角度不正確,背後的力度看起來不夠;跑步者的手突然反向運動,使得生成的動作不自然、不符合人體運動規律等。
(影片來自 X 博主 @jerrod_lew)
還有這個機器人和人類踢足球的影片,人類和機器人的手臂會互相穿過;在無人觸碰的情況下,球會自己旋轉移動等。
(Prompt:Soccer of the future, mixing people and robots. This is a fragment from a 2024 cinematic movie.)
-2-
國外科技博主橫評
不少博主還發布了 Veo 2 和其他影片生成模型對比的影片。
Prompt: A pair of hands skillfully slicing a ripe tomato on a wooden cutting board. 提示詞:雙手熟練地在木菜板上切成熟的蕃茄。
提示詞:宇航員探索水下外星沉船。
提示詞:調酒師正在調製老式雞尾酒。
Prompt: A video of a person sitting in a cafe with a coffee. After a bit, cuts to another viewpoint to reveal that a person nearby table is writing a letter to them. 提示詞:一個人坐在咖啡館喝咖啡的影片。過了一會兒,切到另一個視角,發現旁邊桌子上的一個人正在給他們寫信。
Prompt: A sloth playing a game of Jenga made of a bunch of donuts. 提示詞:一隻樹懶正在玩由一堆甜甜圈製成的 Jenga 遊戲。
Prompt: a tracking shot, follows an ice skater gliding across an ice rink that appears to be floating amidst the clouds. 提示詞:跟蹤鏡頭,一名滑冰者滑過溜冰場,溜冰場漂浮在雲層中。
Prompt: NYC drone footage. Hyperlapse during the night. Brooklyn bridge. 提示詞:紐約無人機鏡頭,夜間延時攝影,布魯克林大橋。
X 博主 @blizaine 還用同一套提示詞分別測試了 Veo 2、Sora、Runway、Luma、Pika、hailuoAI、可靈 1.5、混元。
儘管在科技博主的一番測評下,Veo2 吊打其他對手,但我們還是想說,先別急著下結論,畢竟曾經的 Sora 也一度被捧上天,最後還是逃不掉翻車的命運。
文中影片連結:https://mp.weixin.qq.com/s/Gzfq7QpMLjvrJCYpQX9vHA