谷歌世界模型爆發:單張圖生成可玩3D世界,還要和馬斯克一起做AI遊戲

机器之心發表於2024-12-05
昨晚,世界模型向前邁出了一大步!

Google DeepMind 震撼宣佈了他們的新一代世界模型 Genie 2,其可根據一張圖生成可供人類或 AI 智慧體遊玩的無限 3D 世界。圖片
谷歌世界模型爆發:單張圖生成可玩3D世界,還要和馬斯克一起做AI遊戲
訊息釋出後,好評與震驚如潮水般湧現。有人被這技術進步的速度震撼,稱之為影片遊戲的未來,甚至還有人看到了一切都被虛擬化的世界模型的更長遠未來。
圖片
圖片
有趣的是,Genie 2 剛一發布,DeepMind CEO 哈薩比斯宣傳完之後直接邀請馬斯克一起來用世界模型製作 AI 遊戲,馬斯克居然欣然同意了:
圖片
可見 AI 大佬對於自己的技術很有信心,馬斯克也很重視。

Genie 2:劃時代的世界模型
圖片
Genie 2 是一個基礎世界模型(foundation world model),有能力生成無限多種可控制動作、可玩的 3D 環境,而這些 3D 環境又可用於訓練和評估具身智慧體。

DeepMind 表示,Genie 2 只需使用單張提示影像,就能生成可供人類或 AI 智慧使用鍵鼠輸入遊玩的環境。

我們知道,在 AI 研究領域,遊戲扮演著一個重要角色。遊戲需要玩家參與、具有不同的難度、遊戲進度也易於衡量,因此成為了安全測試和推進 AI 發展的理想環境。

事實上,自 Google DeepMind 成立以來,AI 與遊戲結合的研究就一直很重要。機器之心也一直在跟進報導他們在遊戲相關 AI 研究中的進展,從早期的 Atari 遊戲,到吸引全世界眼球的 AlphaGo 和 AlphaStar,再到他們上半年與遊戲開發者合作開發的通用智慧體 —— 參閱《智慧體的ChatGPT時刻!DeepMind通用AI向人類玩家進化,開始理解遊戲》。

但 DeepMind 也指出,訓練更通用的具身智慧體有一個瓶頸:難以獲得足夠豐富和多樣化的訓練環境。

Genie 2 似乎就能填補這一空白,其能創造一個用於訓練和評估智慧體的無限新世界。DeepMind 表示:「我們的研究還為構建互動式體驗原型設計的全新創意工作流程鋪平了道路。」

與李飛飛的空間智慧相比如何?

前些天,我們剛剛報導了著名學者李飛飛的創業公司 World Labs 的首個專案。從描述上看,其與 Genie 2 似乎具有一樣的能力,都能基於單張影像生成可互動的 3D 場景,參閱報導《剛剛,李飛飛創業首個專案引圍觀:單圖生成互動 3D 場景,空間智慧來了》。

但這兩者也存在一些區別。普林斯頓AI創新中心創始人、主任,終身教授王夢迪告訴機器之心:「飛飛的 World Labs 和 Google 的 Genie2 看上去都是從一張圖片生成可以互動的三維場景,但有本質區別。Genie2 還是 video diffusion(影片擴散),每一幀的生成都是 pixel prediction(畫素預測),並透過額外的使用者輸入的 guidance(引導)來影響下一幀的機率分佈。而飛飛的 World Labs 是更進一步挖掘世界的物理本質:從圖片出發,估計圖片中不同景物的深度和相對關係,生成了更加物理世界的 3D 環境建模,不僅僅是可互動影片。」
圖片
World Labs 的單圖生成 3D 場景的效果演示

從這個描述看,李飛飛的研究專案似乎更接近真正的世界模型一些。不管怎樣,這些新技術的碰撞都是進步的過程,王夢迪教授也表達了這樣的期待:「期待看到更多不同技術思路的進展和對決。新正規化快來吧。」

Genie 2 基礎世界模型的湧現能力

到目前為止,世界模型在很大程度上侷限在建模範圍狹窄的領域。

在上一代 Genie 1 中,DeepMind 提出了一種生成多種 2D 世界的方法。Genie 2 則是通用性方面的一次飛躍!其可生成豐富多樣的 3D 世界。

Genie 2 是一個世界模型,這就意味著它可以模擬虛擬世界,包括採取任何動作(例如跳躍、游泳等)的後果。它是在大型影片資料集上訓練得到的,因此,Genie 2 與其他生成模型一樣具有各種大規模湧現能力,例如物體互動、複雜角色動畫、物理以及建模和預測其他智慧體行為的能力。

下面展示了一些人們與 Genie 2 互動的例子。對於每個示例,模型都會使用 Imagen 3(DeepMind 最先進的文生圖模型)生成的單張影像作為提示。這意味著任何人都可以用文字描述他們想要的世界,選擇他們最喜歡的渲染方法,然後進入這個新建立的世界並與之互動(或在其中訓練或評估 AI 智慧體)。

在每個步驟中,都由一個人或智慧體提供鍵盤和滑鼠操作,Genie 2 模擬下一個觀察結果。Genie 2 可以生成長達一分鐘的一致世界,大多數示例持續 10-20 秒。

動作控制

Genie 2 能智慧地響應鍵盤按鍵對應的動作,識別角色並正確地移動它。例如,模型必須要明白,箭頭鍵應該移動機器人而不是樹木或雲。
圖片
生成反事實影片幀

Genie 2 可以從同一起始幀生成不同的軌跡,這意味著可以為訓練智慧體來模擬反事實體驗。如下兩行動圖所示,每個影片都從同一幀開始,但人類玩家採取了不同的行動。
圖片
長跨度記憶

Genie 2 能夠記住視野中消失的部分世界,然後在它們再次可見時準確地呈現它們。
圖片
使用新的生成內容來生成長影片

Genie 2 可以即時地生成新的合理可信內容,並在長達一分鐘的時間內保持一致性的世界。
圖片
多樣性環境

Genie 2 可以建立不同的視角,例如第一人稱視角、等距視角或者第三人稱駕駛視角。
圖片
3D 結構

Genie 2 學會了建立複雜的 3D 視覺場景。
圖片
物體可供性和互動

Genie 2 能夠模擬各種物體之間的互動,例如爆破氣球、開啟門和用槍射擊炸藥桶。圖片
角色動畫

Genie 2 學會了為執行不同活動的各種角色製作動畫。
圖片
NPC

Genie 2 能夠模擬其他智慧體,甚至與它們進行復雜的互動。圖片
物理效果

Genie 2 能夠建模水面效果。
圖片
煙霧效果

Genie 2 能夠建模各種煙霧效果。圖片
重力效果

Genie 2 能夠建模各種重力效果。圖片
照明效果

Genie 2 能夠建模點式和定向照明效果。圖片
反射效果

Genie 2 能夠建模反射、綻放和彩色燈光效果。圖片
以現實世界的影像為提示

Genie 2 還可以將現實世界的影像作為提示,比如它可以模擬風中飄動的草或流動的河水。圖片
Genie 2 支援快速原型設計

Genie 2 可以輕鬆快速地為各種互動式體驗製作原型,使研究人員能夠快速試驗新環境,從而訓練和測試具身 AI 智慧體。

下圖用 Imagen 3 生成的不同影像作為 Genie 2 的提示影像,以模擬紙飛機、龍、鷹或降落傘飛行之間的差異,並測試 Genie 對不同化身的動畫效果。圖片
得益於 Genie 2 的分散式泛化能力,概念藝術和繪畫可以轉化為完全互動式的環境。這使得藝術家和設計師們能夠快速製作原型,從而啟動環境設計的創作,進一步加速研究。下圖展示了概念藝術家製作的「研究環境概念」示例。
圖片
在世界模型中行動的 AI 智慧體

透過使用 Genie 2 快速為 AI 智慧體建立豐富多樣的環境,研究人員還可以生成智慧體在訓練期間未見過的評估任務。

下圖展示了與遊戲開發者合作開發的 SIMA 智慧體示例,該智慧體透過單個影像提示來遵循 Genie 2 合成的未見過環境的指令。
圖片
提示詞:第三人稱開放世界探索遊戲的截圖。玩家扮演一名正在探索森林的冒險者。左邊有一棟房子,門是紅色的,右邊有一棟房子,門是藍色的。攝像機位於玩家正後方。照片級真實、沉浸式。

SIMA 智慧體透過遵循自然語言指令來完成一系列 3D 遊戲世界中的任務。下圖中使用 Genie 2 生成一個有兩扇門(藍門和紅門)的 3D 環境,並向 SIMA 智慧體提供開啟每扇門的指令。在該示例中,SIMA 透過鍵盤和滑鼠輸入控制化身,而 Genie 2 生成遊戲幀。圖片
另外還可以使用 SIMA 來幫助評估 Genie 2 的功能。下圖中指示 SIMA 環顧四周並探索房屋後面,來測試 Genie 2 生成一致環境的能力。圖片
雖然這項研究仍處於早期階段,智慧體和環境生成能力還有很大的改進空間,但谷歌相信 Genie 2 是解決安全訓練具身智慧體結構性問題的一大途徑,同時也能提供邁向 AGI 所需的廣度和通用性。

下圖為 Imagen 3 生成的電腦遊戲影像,提示詞為「一張電腦遊戲圖片,展示了一個粗糙的石洞或礦井內部場景。觀看者的位置是第三人稱視角,位於玩家頭像上方,向下看向頭像。玩家頭像是一個手持寶劍的騎士。騎士頭像前面有 3 個石拱門,騎士可以選擇穿過其中任何一扇門。穿過第一扇門和內部,我們可以看到隧道兩旁長滿了奇異的綠色植物和發光的花朵。在第二個門的內部和外部,有一條走廊,走廊上鉚接著釘在洞穴牆壁上的帶刺鐵板,通向遠處不祥的光芒。穿過第三扇門,我們可以看到一組粗糙的石階,通往一個神秘的目的地。」
圖片
下面為根據上圖生成的遊戲幀。圖片
背後的技術:擴散世界模型

作為一個自迴歸潛在擴散模型,Genie 2 在大型影片資料集上進行訓練。在透過一個自動編碼器後,影片中的潛在幀被傳遞到大型 transformer 動態模型中,該模型使用與大型語言模型類似的因果掩碼進行訓練。

在推理時,Genie 2 能夠以自迴歸方式進行取樣,逐幀採取單個動作和過去的潛在幀。谷歌使用無分類器指導(classifier-free guidance)來提高動作可控性。

本文的示例由未蒸餾的基礎模型生成,以展示其多種可能性。當然也可以實時執行蒸餾版本,但輸出質量會降低。
圖片
負責任地開發技術

谷歌表示,Genie 2 展示了基礎世界模型在建立多樣化 3D 環境和加速智慧體研究方面的潛力。不過,鑑於該研究方向尚處於早期階段,未來將繼續提高 Genie 在通用性和一致性方面的世界生成能力。

與 SIMA 一樣,谷歌的研究正在朝著更通用 AI 系統和智慧體的方向發展,它們可以理解並安全地執行各種任務,從而對線上和現實世界中的人們提供幫助。

順帶一提,DeepMind 同時還發布了 AI 天氣預測模型 GenCast,當然,它的天氣預測表現也達到了當前最佳水平。

參考內容:
https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/
https://news.ycombinator.com/item?id=42317903

相關文章