OpenAI被偷家,谷歌Veo 2反超Sora

机器之心發表於2024-12-17
影片生成領先 OpenAI 了?

今天是個好日子,至少谷歌這麼想。幾個小時前,該公司一鍵三連,一口氣釋出了兩款視覺生成模型和一個工具:

  • Veo 2:影片生成模型,可使用文字或影像 prompt 生成高真實感、高質量的影片;
  • Imagen 3:文生圖模型,可更忠實地遵從提示詞,實現更加豐富的細節和紋理渲染;
  • Whisk:圖生圖工具,基於 Imagen 3 與 Gemini 的視覺理解和描述能力打造,能讓使用者更加方便地調整影像的場景、風格和物體。

其中,Veo 2 可說是直接引爆了整個社交網路。從早期使用者釋出的生成結果以及反饋來看,Veo 2 的生成質量明顯超過了當前最佳的 Sora 等模型。一問世便是當世第一,似乎完全可以囂張地喊一聲:「還有誰?」
圖片
谷歌 CEO Sundar Pichai 介紹 Veo 2 的推文

據介紹,Veo 2 可以建立 2 分鐘以上長度的 4k 解析度影片,也能理解提示詞中的相機控制指令(比如廣角鏡頭、POV 和無人機鏡頭),還能重建出符合真實世界的物理互動和人臉表情。

但也必須指出,目前這只是一個理論上的優勢。在谷歌的實驗性影片製作工具 VideoFX 中,Veo 2 目前只提供解析度上限為 720p、長度為 8 秒的影片生成服務。(而目前的 Sora 可以製作高達 1080p、20 秒長的影片。)

儘管如此,Veo 2 現有的表現已經足夠驚豔了其表現是如此之好,以至於一心推介自家 Grok 的馬斯克也跑來讚美了一句。
圖片
為了佐證 Veo 2 確實優秀,谷歌還做了一個基於人類評估者的對比評估,簡單來說就是讓人類評估者看不同模型基於同一提示詞生成的影片,然後判斷自己更喜歡哪一個影片。他們對比了 Meta Movie Gen、可靈 1.5、Minimax 和 Sora Turbo。參與者觀看了 1003 條提示詞及相應影片。

在整體偏好上,Veo 2 的優勢非常明顯,被另一個對比模型勝過的機率不超過 33%。
圖片
而在指令遵從度上,Veo 2 的表現依舊強勢。
圖片
令人意外的反倒是 Sora Turbo,其整體偏好和指令遵從表現是這幾個模型裡面最差的。Sora 要想「挽回面子」,可能還得看以後的滿血版了。

Veo 2 表現驚豔

話不多說,看看 Veo 2 的表現,我們或許就能理解為什麼它在大眾評審中能夠壓倒性地戰勝之前的明星影片生成模型。

首先是對物理世界的理解力大大提高。如果不說是 AI 生成的,水下的波紋、光影,狗狗潛水時的動作協調性,都讓人感覺如此真實,彷彿眼前的一切都是手持相機拍出來的,簡直分不出來。
圖片
雖然儀表盤上的字不是完美,但我們可以看到,方向盤向左轉的時候,整體畫面也有一個左移,之後鏡頭向上從車窗搖到街道。
圖片
做到這種和主畫面保持強一致性的搖鏡頭,其實非常難,每個細節都需要精確控制,確保鏡頭移動時畫面中的物體位置和運動協調一致。

只有提升對真實世界物理運動規律的理解,才能做到這點,而 Veo 2 在這方面表現得尤為出色。

除此之外,Veo 2 的另一個亮點就是它生成的人類表情更加真實。

拿相似的 prompt 去測試其他模型,想實現這種自然又細膩的陶醉微表情,不失真、不鬼畜,試過才知道有多難。OpenAI被偷家,谷歌Veo 2反超Sora
還有,這畫面簡直就像從紀錄片裡擷取的一幕。鏡頭裡,一個養蜂的男人在蜂群中忙碌,Veo 2 在生成這一場景時,真的是突破了不少難關。OpenAI被偷家,谷歌Veo 2反超Sora
蜜蜂群體飛行不僅要表現出自然的協調感,還得和背景、光影無縫對接,避免出現卡頓或不自然的分佈。但 Veo 2 把這些複雜的細節都處理得恰到好處,蜂群飛舞的每一刻都像是活生生的,「AI 味」已經很淡了。

DeepMind 表示,雖然影片模型經常出現「幻覺」,展示不必要的細節(例如多餘的手指或額外的物體),但 Veo 2 產生這些細節的頻率較低,模型的輸出更加逼真。OpenAI被偷家,谷歌Veo 2反超Sora當然,作為一款 SOTA 影片生成模型,光能生成擬真影片可不夠。從官方以及網友分享的生成結果看,Veo 2 在生成幻想和動畫內容方面的表現也同樣非常出色。 OpenAI被偷家,谷歌Veo 2反超Sora 提示詞:A meeting of a lion, a bear and a giraffe, all of them wearing suits. Photorealistic, cinematic. 來自 X @hhm OpenAI被偷家,谷歌Veo 2反超Sora
提示詞:a sitcom tv show about potatoes,來自谷歌研究科學家 @babaeizadeh

Veo 2 還讓創作者可以輕鬆實現以前需要複雜後期才能完成的視覺效果。比如,它可以讓這個運動的立方體穩定地切換材質,這個畫面讓人來做,看起來就很難,換 AI 來做,其實一點也沒變簡單。OpenAI被偷家,谷歌Veo 2反超Sora
Veo 2 不僅要解決實時追蹤的問題,確保在物體快速移動時也能精準捕捉位置和形態,僅需 Prompt 就能置換材質。最厲害的是,它能保證在多次連續變換過程中畫面始終流暢自然,不會出現抖動或錯位。

Veo 2 的功能已經被加入到 Google Labs 影片生成工具 VideoFX 中,並擴大了可訪問的使用者數量。谷歌表示,計劃明年將 Veo 2 擴充套件到 YouTube Shorts 和其他產品上。OpenAI被偷家,谷歌Veo 2反超Sora
提示詞:A broccoli wearing a leather jacket and carrot wearing a tank top having a steak dinner,來自谷歌研究科學家 @RubenEVillegas

不過 Veo 2 現在還未正式開放,需要填表排隊,等待正式上線。

  • 排隊連結:https://labs.google/fx/tools/video-fx

OpenAI 連開直播 12 天,雖然賺足了流量,但從開播至今乾貨越來越少,可謂噱頭大於實質。

而之前谷歌一直被 OpenAI 狙擊,這次終於迎頭反擊。

雪上加霜的是,OpenAI Sora 的專案負責人 Tim Brooks 也在兩個月前選擇了跳槽至 DeepMind。
圖片
按照目前雙方技術迭代的速度和質量來看,或許就像網友們所預測的:「谷歌明年就會把 OpenAI 甩得連尾氣都吃不上了」。
圖片
圖片
參考內容:
https://blog.google/technology/google-labs/video-image-generation-update-december-2024/

相關文章