Runway和Luma又打起來了!Yann LeCun炮轟:你們再牛,也不是「世界模型」

机器之能發表於2024-07-01

機器之能報導

編輯:楊文

以大模型、AIGC為代表的人工智慧浪潮已經在悄然改變著我們生活及工作方式,但絕大部分人依然不知道該如何使用。

因此,我們推出了「AI在用」專欄,透過直觀、有趣且簡潔的人工智慧使用案例,來具體介紹AI使用方法,並激發大家思考。

我們也歡迎讀者投稿親自實踐的創新型用例。

AI 影片界又「打」起來了!

6 月 29 日,著名生成式 AI 平臺 Runway 宣佈,其最新模型 Gen-3 Alpha 向部分使用者開啟測試。

同一天,Luma 推出關鍵幀新功能,並向所有使用者免費開放使用。

可謂是「你有張良計,我有過牆梯」,二者鬥得不亦樂乎。

圖片

這可把網友們高興壞了,「6 月,多麼美好的一個月!」

圖片

「瘋狂的 5 月、瘋狂的 6 月,瘋狂到根本停不下來!」

圖片


-1-

Runway超絕鏡頭,幹掉好萊塢

兩週前,AI 影片「王者」Runway 祭出全新影片生成模型 Gen-3 Alpha 時,就預告 ——

將在「幾天內」首先向付費使用者提供,免費版本也將在未來某個時間點向所有使用者開放。

圖片

6 月 29 日,Runway 兌現承諾,宣佈其最新推出的 Gen-3 Alpha 向部分使用者開啟測試。

Gen-3 Alpha 之所以備受追捧,是因為它與上一代相比,無論在光影、質量、構圖,還是文字語義還原、物理模擬、動作一致性等方面,均實現大幅度提升,就連宣傳語都是「For artists,by artists(為藝術家而生,由藝術家而生)」。

圖片

Gen-3 Alpha 效果究竟咋樣?向來整花活的網友最有發言權。接下來請欣賞——

一個可怕的怪物從倫敦泰晤士河升起的電影鏡頭:

圖片


一隻悲傷的泰迪熊在哭泣,哭到傷心處還拿紙巾擤鼻涕:

圖片

身穿華麗禮服的英國女郎,行走在古堡聳立的大街上,旁邊有疾馳的車輛、緩行的馬匹:

圖片

一個巨大的蜥蜴,全身鑲嵌著華麗的珠寶、珍珠,穿過茂密的植被。蜥蜴在光線下閃閃發光,畫面逼真程度堪比紀錄片。

圖片

還有一隻滿身紅藍寶石的鑲鑽蛤蟆:

圖片

夜晚的城市街道,雨水泛起霓虹燈的倒影。

鏡頭從水坑中反射的燈光開始,緩緩升起,展現出那發光的霓虹廣告牌,隨後繼續向後拉遠,呈現出整條被雨水浸溼的街道。

鏡頭的移動:一開始對準水坑中的倒影,接著一氣呵成向上提起,向後拉開,以展現這雨夜的都市風光。

Runway和Luma又打起來了!Yann LeCun炮轟:你們再牛,也不是「世界模型」

影片連結:https://mp.weixin.qq.com/s/8WsQ07ufAe9qfWwb-FW0Ww

培養皿中生長的黃色黴菌,在暗淡而神秘的燈光下,呈現出冷色調,動態感十足。

圖片

秋天的森林中,地面被各種橙色、黃色和紅色的落葉覆蓋。

輕風拂過,鏡頭緊貼地面向前推進,一陣旋風開始形成,將落葉捲起,形成一道螺旋。鏡頭隨著落葉升起,繞著旋轉的落葉柱旋轉。

Runway和Luma又打起來了!Yann LeCun炮轟:你們再牛,也不是「世界模型」

影片連結:https://mp.weixin.qq.com/s/8WsQ07ufAe9qfWwb-FW0Ww

從滿是塗鴉的隧道的低視角開始,鏡頭平穩地沿著道路推進,穿過一段短而暗的隧道,鏡頭在另一側出現後迅速升高,展現出一大片五彩繽紛的野花田,周圍是雪山環繞。

Runway和Luma又打起來了!Yann LeCun炮轟:你們再牛,也不是「世界模型」

影片連結:https://mp.weixin.qq.com/s/8WsQ07ufAe9qfWwb-FW0Ww

一個彈鋼琴的特寫鏡頭,手指在琴鍵上跳躍,沒有手部畸變,動作流暢,唯一的不足是,無名指上沒有戒指,但影子「無中生有」。

圖片

網友們的整活還炸出了 Runway 聯合創始人 Cristóbal Valenzuela,他為自創的蜜蜂相機生成了一段影片。

把相機安在蜜蜂背上,拍出來的景兒是這樣的:

Runway和Luma又打起來了!Yann LeCun炮轟:你們再牛,也不是「世界模型」


影片連結:https://mp.weixin.qq.com/s/8WsQ07ufAe9qfWwb-FW0Ww

安在蜜蜂臉上是醬紫的:

Runway和Luma又打起來了!Yann LeCun炮轟:你們再牛,也不是「世界模型」

影片連結:https://mp.weixin.qq.com/s/8WsQ07ufAe9qfWwb-FW0Ww

那麼,這個袖珍相機長啥樣呢?

圖片

AI 再這樣進化下去,好萊塢的演員們又要鬧罷工了。


-2-

Luma的關鍵幀新功能,畫面過渡絲滑

6 月 29 日,Luma AI 推出了關鍵幀功能,而且大手一揮,直接向所有使用者免費開放使用。

使用者只需上傳起始和結束圖片,並新增文字描述,Luma 就能生成具有好萊塢級別的特效影片。

例如,X 網友 @hungrydonke 上傳了兩張關鍵幀照片:

圖片
圖片

然後輸入提示詞是:A bunch of black confetti suddenly falls(突然,一堆黑色紙屑紛紛揚揚地落下來)效果如下 ——

圖片

網友 @JonathanSolder3 先用 midjourney 生成兩張圖片:

圖片
圖片

接著使用 Luma 關鍵幀功能生成一段超級賽亞人變身的動畫。據作者介紹,Luma 不需要增強提示,只輸入「超級賽亞人」即可。

Runway和Luma又打起來了!Yann LeCun炮轟:你們再牛,也不是「世界模型」

影片連結:https://mp.weixin.qq.com/s/8WsQ07ufAe9qfWwb-FW0Ww

還有網友使用該功能完成每一個鏡頭過渡,從而將經典童話進行混搭生成一段名為《The Wolf, The Warrior, and The Wardrobe》動畫。

Runway和Luma又打起來了!Yann LeCun炮轟:你們再牛,也不是「世界模型」

影片連結:https://mp.weixin.qq.com/s/8WsQ07ufAe9qfWwb-FW0Ww

魔鬼變天使:

圖片

橘子變小雞:

圖片

星巴克 logo 變身:

圖片
還有網友將 20 個梗圖利用 Luma 進行無縫銜接:

Runway和Luma又打起來了!Yann LeCun炮轟:你們再牛,也不是「世界模型」

影片連結:https://mp.weixin.qq.com/s/8WsQ07ufAe9qfWwb-FW0Ww

AI 影片界戰況如此焦灼,天曉得 Sora 怎麼這麼沉得住氣,到現在都不露面。


-3-

Yann LeCun「炮轟」:它們壓根不懂物理

早在年初 Sora 釋出時,「世界模型」一下子成了火熱的概念。

後來,谷歌的 Genie 也打出「世界模型」的旗號,這次 Runway 推出 Gen-3 Alpha 時,官方稱「朝著構建通用世界模型邁出了重要一步」。

到底啥是世界模型呢?

其實這並沒有一個標準的定義,但 AI 科學家們認為,人和動物會潛移默化地掌握世界的運作規律,從而可以「預知」接下來發生的事情並採取行動。世界模型的研究就是讓 AI 學習這種能力。

很多人認為,Sora、Luma、Runway 等應用生成的影片相當逼真,還能按照時間順序往後生成新的影片內容,它們似乎學會了「預知」事物發展的能力。這與世界模型研究追求的目標不謀而合。

不過,圖靈獎得主 Yann LeCun 一直「潑冷水」。

他認為,「根據提示產生看起來最真實的影片並不代表系統理解物理世界,生成與世界模型的因果預測有很大不同。」

7 月 1 日,Yann LeCun 連發 6 條帖子炮轟影片生成模型。

他轉發了一個 AI 生成體操的影片。影片中的人物要麼腦袋憑空消失,要麼驚現 4 條腿,各種奇葩畫面滿天飛。

Runway和Luma又打起來了!Yann LeCun炮轟:你們再牛,也不是「世界模型」

影片連結:https://mp.weixin.qq.com/s/8WsQ07ufAe9qfWwb-FW0Ww

Yann LeCun 稱,影片生成模型並不理解基本的物理原理,更不用說人體結構了。

圖片

「Sora 和其他影片生成模型都有類似的問題。毫無疑問,影片生成技術會隨著時間的推移而變得更加先進, 但是,真正理解物理的優秀世界模型不會是生成式的。所有的鳥類和哺乳動物都比任何影片生成模型更懂物理,然而它們中沒有一種能生成詳細的影片。」Yann LeCun 說。

圖片

有網友質疑:人類不正是根據對物理的理解,在腦海中不斷生成詳細的「影片」嗎?

Yann LeCun 線上答疑,「我們構想的是可能發生的抽象情景,而不是生成畫素影像。這就是我想表達的觀點。」

圖片
還有網友認為,鳥類和哺乳動物的大腦時刻在生成詳細的「影片」,只是它們無法將其外化展現出來。

Yann LeCun 反駁道:不,它們不會。它們只是生成可能發生的抽象情景,這和生成詳細的影片有很大的區別。
圖片以後我們會透過新專欄帶來更多 AIGC 案例演示,也歡迎大家進群交流。

圖片


相關文章