機器之能報導
編輯:楊文
以大模型、AIGC為代表的人工智慧浪潮已經在悄然改變著我們生活及工作方式,但絕大部分人依然不知道該如何使用。
因此,我們推出了「AI在用」專欄,透過直觀、有趣且簡潔的人工智慧使用案例,來具體介紹AI使用方法,並激發大家思考。
我們也歡迎讀者投稿親自實踐的創新型用例。
AI 影片界又「打」起來了!
6 月 29 日,著名生成式 AI 平臺 Runway 宣佈,其最新模型 Gen-3 Alpha 向部分使用者開啟測試。
同一天,Luma 推出關鍵幀新功能,並向所有使用者免費開放使用。
可謂是「你有張良計,我有過牆梯」,二者鬥得不亦樂乎。
這可把網友們高興壞了,「6 月,多麼美好的一個月!」
「瘋狂的 5 月、瘋狂的 6 月,瘋狂到根本停不下來!」
-1-
Runway超絕鏡頭,幹掉好萊塢
兩週前,AI 影片「王者」Runway 祭出全新影片生成模型 Gen-3 Alpha 時,就預告 ——
將在「幾天內」首先向付費使用者提供,免費版本也將在未來某個時間點向所有使用者開放。
6 月 29 日,Runway 兌現承諾,宣佈其最新推出的 Gen-3 Alpha 向部分使用者開啟測試。
Gen-3 Alpha 之所以備受追捧,是因為它與上一代相比,無論在光影、質量、構圖,還是文字語義還原、物理模擬、動作一致性等方面,均實現大幅度提升,就連宣傳語都是「For artists,by artists(為藝術家而生,由藝術家而生)」。
Gen-3 Alpha 效果究竟咋樣?向來整花活的網友最有發言權。接下來請欣賞——
一個可怕的怪物從倫敦泰晤士河升起的電影鏡頭:
一隻悲傷的泰迪熊在哭泣,哭到傷心處還拿紙巾擤鼻涕:
身穿華麗禮服的英國女郎,行走在古堡聳立的大街上,旁邊有疾馳的車輛、緩行的馬匹:
一個巨大的蜥蜴,全身鑲嵌著華麗的珠寶、珍珠,穿過茂密的植被。蜥蜴在光線下閃閃發光,畫面逼真程度堪比紀錄片。
還有一隻滿身紅藍寶石的鑲鑽蛤蟆:
夜晚的城市街道,雨水泛起霓虹燈的倒影。
鏡頭從水坑中反射的燈光開始,緩緩升起,展現出那發光的霓虹廣告牌,隨後繼續向後拉遠,呈現出整條被雨水浸溼的街道。
鏡頭的移動:一開始對準水坑中的倒影,接著一氣呵成向上提起,向後拉開,以展現這雨夜的都市風光。
影片連結:https://mp.weixin.qq.com/s/8WsQ07ufAe9qfWwb-FW0Ww
培養皿中生長的黃色黴菌,在暗淡而神秘的燈光下,呈現出冷色調,動態感十足。
秋天的森林中,地面被各種橙色、黃色和紅色的落葉覆蓋。
輕風拂過,鏡頭緊貼地面向前推進,一陣旋風開始形成,將落葉捲起,形成一道螺旋。鏡頭隨著落葉升起,繞著旋轉的落葉柱旋轉。
影片連結:https://mp.weixin.qq.com/s/8WsQ07ufAe9qfWwb-FW0Ww
從滿是塗鴉的隧道的低視角開始,鏡頭平穩地沿著道路推進,穿過一段短而暗的隧道,鏡頭在另一側出現後迅速升高,展現出一大片五彩繽紛的野花田,周圍是雪山環繞。
影片連結:https://mp.weixin.qq.com/s/8WsQ07ufAe9qfWwb-FW0Ww
一個彈鋼琴的特寫鏡頭,手指在琴鍵上跳躍,沒有手部畸變,動作流暢,唯一的不足是,無名指上沒有戒指,但影子「無中生有」。
網友們的整活還炸出了 Runway 聯合創始人 Cristóbal Valenzuela,他為自創的蜜蜂相機生成了一段影片。
把相機安在蜜蜂背上,拍出來的景兒是這樣的:
影片連結:https://mp.weixin.qq.com/s/8WsQ07ufAe9qfWwb-FW0Ww
安在蜜蜂臉上是醬紫的:
影片連結:https://mp.weixin.qq.com/s/8WsQ07ufAe9qfWwb-FW0Ww
那麼,這個袖珍相機長啥樣呢?
AI 再這樣進化下去,好萊塢的演員們又要鬧罷工了。
-2-
Luma的關鍵幀新功能,畫面過渡絲滑
6 月 29 日,Luma AI 推出了關鍵幀功能,而且大手一揮,直接向所有使用者免費開放使用。
使用者只需上傳起始和結束圖片,並新增文字描述,Luma 就能生成具有好萊塢級別的特效影片。
例如,X 網友 @hungrydonke 上傳了兩張關鍵幀照片:
然後輸入提示詞是:A bunch of black confetti suddenly falls(突然,一堆黑色紙屑紛紛揚揚地落下來)效果如下 ——
網友 @JonathanSolder3 先用 midjourney 生成兩張圖片:
接著使用 Luma 關鍵幀功能生成一段超級賽亞人變身的動畫。據作者介紹,Luma 不需要增強提示,只輸入「超級賽亞人」即可。
影片連結:https://mp.weixin.qq.com/s/8WsQ07ufAe9qfWwb-FW0Ww
還有網友使用該功能完成每一個鏡頭過渡,從而將經典童話進行混搭生成一段名為《The Wolf, The Warrior, and The Wardrobe》動畫。
影片連結:https://mp.weixin.qq.com/s/8WsQ07ufAe9qfWwb-FW0Ww
魔鬼變天使:
橘子變小雞:
星巴克 logo 變身:
影片連結:https://mp.weixin.qq.com/s/8WsQ07ufAe9qfWwb-FW0Ww
-3-
Yann LeCun「炮轟」:它們壓根不懂物理
早在年初 Sora 釋出時,「世界模型」一下子成了火熱的概念。
後來,谷歌的 Genie 也打出「世界模型」的旗號,這次 Runway 推出 Gen-3 Alpha 時,官方稱「朝著構建通用世界模型邁出了重要一步」。
到底啥是世界模型呢?
其實這並沒有一個標準的定義,但 AI 科學家們認為,人和動物會潛移默化地掌握世界的運作規律,從而可以「預知」接下來發生的事情並採取行動。世界模型的研究就是讓 AI 學習這種能力。
很多人認為,Sora、Luma、Runway 等應用生成的影片相當逼真,還能按照時間順序往後生成新的影片內容,它們似乎學會了「預知」事物發展的能力。這與世界模型研究追求的目標不謀而合。
不過,圖靈獎得主 Yann LeCun 一直「潑冷水」。
他認為,「根據提示產生看起來最真實的影片並不代表系統理解物理世界,生成與世界模型的因果預測有很大不同。」
7 月 1 日,Yann LeCun 連發 6 條帖子炮轟影片生成模型。
他轉發了一個 AI 生成體操的影片。影片中的人物要麼腦袋憑空消失,要麼驚現 4 條腿,各種奇葩畫面滿天飛。
影片連結:https://mp.weixin.qq.com/s/8WsQ07ufAe9qfWwb-FW0Ww
Yann LeCun 稱,影片生成模型並不理解基本的物理原理,更不用說人體結構了。
「Sora 和其他影片生成模型都有類似的問題。毫無疑問,影片生成技術會隨著時間的推移而變得更加先進, 但是,真正理解物理的優秀世界模型不會是生成式的。所有的鳥類和哺乳動物都比任何影片生成模型更懂物理,然而它們中沒有一種能生成詳細的影片。」Yann LeCun 說。
有網友質疑:人類不正是根據對物理的理解,在腦海中不斷生成詳細的「影片」嗎?
Yann LeCun 線上答疑,「我們構想的是可能發生的抽象情景,而不是生成畫素影像。這就是我想表達的觀點。」
Yann LeCun 反駁道:不,它們不會。它們只是生成可能發生的抽象情景,這和生成詳細的影片有很大的區別。
以後我們會透過新專欄帶來更多 AIGC 案例演示,也歡迎大家進群交流。