每幀都是AI實時生成的,全球首款AI遊戲問世了!
机器之心發表於2024-11-02
兩個月前,我們對 AI 遊戲的認知剛剛被谷歌 GameNGen 顛覆。他們實現了歷史性的突破,從此不再需要遊戲引擎,AI 能基於擴散模型,為玩家生成實時可玩的遊戲。GameNGen 一出,從此,開發者不必再手動程式設計,價值 2000 億美元的全球遊戲產業,都將被徹底顛覆。無論什麼型別的遊戲,都可以想你所想、懂你所懂,幻化出只屬於你的獨享世界。這樣的論調瞬間鋪滿了 AI 圈。當時,遊戲界最熱的除了《黑神話:悟空》,就是米哈遊創始人蔡浩宇的犀利發言:「AI 顛覆遊戲開發,建議大部分遊戲開發者趕快轉行。」沒想到,只過了兩個月,新的里程碑就來了,AI 實時生成遊戲不再只是「只可遠觀不可褻玩」的 demo,直接就能上手體驗。昨天,兩家初創公司 Etched、 Decart AI 聯手,帶來了世界上首個實時生成的 AI 遊戲 Oasis,你在其中體驗到的每一幀都來自擴散模型的實時預測,遊戲畫面持續以 20 幀每秒的速度實時渲染,零延遲。- 試玩連結:https://oasis.decart.ai/overview
- 專案連結:https://github.com/etched-ai/open-oasis
- 模型權重:https://huggingface.co/Etched/oasis-500m/blob/main/media/thumb.png
AI 能夠精確模擬出高質量的圖形和複雜的實時互動,這一切的到來快得令人措手不及,看到的網友都有點錯愕:難道我們沒穿越到《駭客帝國》中的矩陣世界嗎?AI 領域的專家而言也都在關注 Oasis。FlashAttention 作者,普林斯頓助理教授 Tri Dao 等諸多大佬紛紛點贊:「很快模型推理就會變得非常便宜,我們的許多娛樂內容都將由人工智慧生成」。不過既然是遊戲,我們就要以遊戲的要求來對它進行評價。話不多說,我們立馬上手試玩了一下。果然,重要的事情起碼要說三遍 —— 這是世界上第一款 AI 實時生成的遊戲。這剛進入介面,就收到了 Oasis 的提醒:「請注意,你做出的每一步都將決定整個世界的走向」。這可一下子把期待值拉滿了。遊戲的內容能夠實時自我塑造,這意味著這個世界裡的一舉一動都完全以你為主,與你有關,玩家不需要再遵循固定的模式和任務,因為每一秒都是 AI 為你量身定製的驚喜。從海岸、村莊、森林、沙漠等地形中選擇一個,就能正式開啟體驗了。(由於 Oasis 太過火爆,想真玩上還要排一會兒隊,算力有限,每位使用者限時體驗五分鐘。)終於擠進去之後,Oasis 這個遊戲卻讓人有點看不懂了,這不就是《我的世界》嗎?很多試玩的人也有同感:「告訴 AI:參考《我的世界》做一個遊戲,把 UI 改改就行。」不過照《我的世界》的玩法繼續搭房子,Oasis 幫忙生成出來的牛棚倒是可圈可點。畢竟,這次驅動遊戲的不是設定好的邏輯和程式,只有一個 AI 模型。把柵欄放在另一個柵欄旁邊的動作,看起來只需要一步,但模型其實悄咪咪地完成了識別你點選的是柵欄,它要和其他物體放在一起應該如何排列,這個畫面要如何呈現等等的複雜轉化。不過相比它的預測能力,記憶應該是 Oasis 的短板,比如畫面左邊原來有座山,但是再把視線轉回去,就會發現山已經消失了。而像 Sora,或者同樣都旨在模擬物理世界的其他影片模型,在把「鏡頭」平移回來之後就沒有這種明顯的記憶損失。對此,有網友猜測是犧牲了引數數量來換取實時的推理速度。雖然官方聲稱遊戲的操作是 0 延遲的,但是使用滑鼠操控起來有點困難,就像有一股神秘的力量在影響滑鼠和電腦之間的連線。想要點選揹包中某一格的物品,總會識別到其他格中。並且遊戲中的文字,有一種夢核的意味,好像有點輪廓,卻怎麼也看不清楚。這位網友的形容很貼切:「開始的時候,我以為是《我的世界》,後來親自嘗試過之後,這是吃了菌子再玩的《我的世界》。」Oasis 的技術:Transformer 中的宇宙作為 Oasis 的技術支援,Etched、 Decart AI 都發布了技術部落格,其中 Decart AI 主要負責訓練模型,Etched 提供算力。模型由兩部分組成:一個空間自編碼器和一個潛在擴散模型結構。這兩部分都基於 Transformer 模型:自編碼器基於 ViT,而主幹則基於 DiT。與最近的基於動作的世界模型如 GameNGen 和 DIAMOND 不同,Oasis 的研究團隊選擇了 Transformer 來確保穩定、可預測的擴充套件。與 Sora 這樣的雙向模型不同,Oasis 是自迴歸地生成幀的,它能夠根據遊戲輸入調節每一幀,這構成了 AI 生成的遊戲實時與世界互動的基礎。該模型採用了 Diffusion Forcing 訓練方法,能夠獨立對每個 token 進行去噪。它透過在空間注意力層之間加入額外的時間注意力層,來利用前幾幀的上下文。此外,擴散過程在 ViT VAE 生成的潛在維度中進行,這一維度不僅壓縮了影像大小,還使得擴散能夠專注於更高層次的特徵。時間的穩定性是 DecartAI 關注的問題 —— 需要確保模型的輸出在長時間跨度內是有意義的。在自迴歸模型中,錯誤會累積,小瑕疵很快就會累積成錯誤的幀。為了解決這個問題,該團隊在長上下文生成中進行了創新。他們選擇的方法是動態調整噪聲。模型推理時將對噪聲實施這樣的計劃,初期,透過擴散前向傳播注入噪聲以減少錯誤積累,在後期逐漸去除噪聲,使模型能夠發現並保持之前幀中的高頻細節。Oasis 遊戲以每秒 20 幀的速度生成實時輸出。目前最先進的具有類似 DiT 架構的文字轉影片模型(例如 Sora、Mochi-1 和 Runway)可能需要 10-20 秒才能建立一秒鐘的影片,即使在多個 GPU 上也是如此。然而,為了匹配玩遊戲的體驗,Oasis 的模型必須最多花每 0.04 秒生成一個新幀,速度快了 100 倍以上。藉助 Decart 推理堆疊的最佳化設定,開發者大幅提升了 GPU 的執行、互聯效率,讓該模型最終能以可播放的幀速率執行,首次解鎖了實時互動性。但是,為了使模型速度再快一個數量級,並使其大規模執行更具成本效益,就需要新的硬體。Oasis 針對 Etched 構建的 Transformer ASIC Sohu 進行了最佳化。Sohu 可以擴充套件到 4K 解析度的 100B+ 大規模下一代模型。此外,Oasis 的端到端 Transformer 架構使其在 Sohu 上執行非常高效,即使在 100B+ 引數模型上也可以為 10 倍以上的使用者提供服務。對於像 Oasis 這樣的生成任務來說,價格顯然是可運作的隱藏瓶頸。Etched,這個名字可能有點陌生,但它算得上是矽谷又一個 AI 融資神話。兩位 00 後創始人 Chris Zhu 和 Gavin Uberti,把寶押在了基於 Transformer 架構的大模型上,選擇 all in Transformer。於是 2022 年,他們雙雙從哈佛大學退學聯手創業,專門開發用於 Transformer 模型的專用晶片(ASIC)。 Etched 的兩位創始人 Gavin Uberti(圖左)、Chris Zhu(圖右)。今年 7 月,Etched 釋出了首款 AI 晶片 Sohu,宣稱:「就 Transformer 而言,Sohu 是有史以來最快的晶片,沒有任何晶片能與之匹敵。」當天,Etched 完成了 1.2 億美元 (約人民幣 8 億元) 的 A 輪融資,投資陣容集結了一眾矽谷大佬,向英偉達發起了挑戰。與英偉達相比,一臺整合了 8 塊 Sohu 的伺服器,效能超過 160 塊 H100,Sohu 的速度比 H100 快 20 倍;與英偉達最強的新一代 B200 相比,Sohu 的速度要快 10 倍以上,而且價格更便宜。Decart 則是一家來自以色列人工智慧公司,直到今天才正式露面。伴隨 Oasis 釋出的還有 Decart 獲得紅杉資本和奧倫・澤夫 2100 萬美元(約等於 1.5 億人民幣)融資的訊息。在推出 Oasis 之前,Decart 提供的主要服務為構建更高效的平臺,提升大模型的速度和可靠性。Oasis 或許會是一個好的開始,或許在此基礎之上,不久以後我們就可以玩到全新形態的 AI 遊戲?https://www.etched.com/blog-posts/oasishttps://www.decart.ai/articles/oasis-interactive-ai-video-game-model