真·開放式遊戲,谷歌造出首個無限人生模擬遊戲Unbounded

机器之心發表於2024-10-26
無限遊戲真的實現了。

如果你是一位開放世界或角色扮演遊戲的玩家,你一定夢想過一款無限自由的遊戲。沒有空氣牆,沒有劇情殺,也沒有任何互動限制。

現在,我們的夢想可能真的要開始成真了。

藉助大型語言模型和視覺生成模型的力量,谷歌新開發的一個無限制(Unbounded)遊戲已經為我們昭示了這一可能性。

圖片

Unbounded 一作 Jialu Li 的推文

圖片

這個遊戲世界是 AI 生成的,並且可隨著遊戲的推進而無限延展和演進,裡面的角色也可根據使用者的要求而定製,同時,這個遊戲也不存在任何互動規則的限制。一切都是開放的,甚至你的想象力都無法限制它,就像《安德的遊戲》中的心智遊戲。

圖片

電影《安德的遊戲》中的心智遊戲畫面

雖然目前該遊戲整體還比較簡單,更多的還是進行一種概念驗證,但其隱含的可能性卻足以引起人們的無限遐想。

圖片

谷歌 Unbounded 遊戲設計思路的根源可追溯到 1986 年 James P. Carse(詹姆斯・卡斯)的著作《有限與無限的遊戲》,其中描繪了兩種不同型別的遊戲。

圖片

在卡斯的定義中,有限遊戲是「以獲勝為目的的遊戲」,它們有邊界條件、固定的規則和明確的終點。而無限遊戲的「目標是讓遊戲繼續下去」,沒有固定的邊界條件,規則也會不斷演變。

傳統的影片遊戲基本都是有限遊戲,存在計算機程式設計和計算機圖形的限制。舉個例子,所有的遊戲機制都必須在程式語言中完全預定義,所有圖形資產都必須預先設計(模組化程式生成也仍存在結構限制)。這樣的遊戲只允許一個有限的動作和路徑集,有時候這些動作還是預先定義的。它們通常還有預定義的規則、邊界條件和獲勝條件。

生成模型的發展為遊戲帶來了全新的可能性。放開腦洞想想,我們甚至可以造出所謂的「生成式無限影片遊戲」。

近日,谷歌和北卡羅來納大學教堂山分校的一篇論文探索了這一可能性,提出了首個互動式生成式無限遊戲 Unbounded,其中的遊戲行為和輸出皆由 AI 模型生成,從而超越了硬編碼系統的限制。

圖片

  • 論文標題:Unbounded: A Generative Infinite Game of Character Life Simulation

  • 論文地址:https://arxiv.org/pdf/2410.18975

  • 專案地址:https://generative-infinite-game.github.io/

據該團隊介紹,Unbounded 的靈感來自《小小電腦人》、《 模擬人生》和《拓麻歌子》等沙盒人生模擬和電子寵物遊戲。其還整合了《龍與地下城》等桌面角色扮演遊戲的元素,此類遊戲能提供影片遊戲不具備的無限制講故事體驗。

Unbounded 的遊戲機制圍繞角色模擬和開放式互動,如圖 2 所示。

圖片

玩家可以將自己的角色插入遊戲,定義自己角色的外觀和個性。遊戲會生成一個世界,這些角色可以在其中探索環境、與物體互動並進行對話。遊戲會根據玩家的行為和選擇生成新的場景、故事和挑戰,從而創造個性化和無限的遊戲體驗。下圖顯示了一些生成遊戲示例。

圖片

具體來說,Unbounded 具有以下功能:

1. 角色個性化:玩家可以將自己的角色插入遊戲,定義自己的外觀和個性。

2. 遊戲環境生成:Unbounded 會生成一個持久的世界,讓角色可以探索和互動。

3. 開放式互動:玩家可以使用自然語言指令與角色互動,並且沒有預定義的規則來限制互動。

4. 實時生成:該團隊強調了遊戲速度的重要性,與初級實現相比,實際遊戲實現了 5-10 倍的加速,每個新場景的延遲約為一秒。

為了做到這一點,該團隊在語言模型和視覺生成方面都做出了一定的技術創新。

方法介紹

Unbounded 是一款由文字 - 影像生成模型和大語言模型驅動的互動式生成無限遊戲。

Unbounded 包括:

(1) 個性化自定義角色:使用者建立具有可自定義外觀和個性的獨特角色;

(2) 動態世界建立:系統生成一個持久的互動式遊戲世界供探索;

(3) 開放式互動:玩家透過自然語言與角色互動,遊戲根據玩家動作動態生成新的場景和故事情節;

(4) 以互動速度生成:遊戲以近乎實時的互動性執行,實現接近一秒的重新整理率。

潛在一致性模型

Unbounded 的一個關鍵特性是它能夠為完全基於生成模型的遊戲提供實時互動。這是透過使用潛在一致性模型 (LCM,latent consistency model) 實現的,該模型只需兩個擴散步驟即可生成高解析度影像。透過利用 LCM,Unbounded 實現了實時文字到影像 (T2I) 生成,這對於提供重新整理率接近一秒的互動式遊戲體驗至關重要。

具有塊丟失功能的區域 IP 介面卡

Unbounded 的另一個關鍵特性是在預定義環境中生成角色,並根據使用者指令執行不同的操作。

在遊戲領域,保持角色和環境的一致性至關重要,目前來看,角色一致性的處理方式上還存在一些挑戰。

該研究發現現有方法無法始終如一地滿足所有互動速度要求。因此本文提出了一種新穎的區域 IP 介面卡(regional IP-Adapter),以便按照文字提示在預定義環境中始終如一地植入角色。

該研究提出了 IP 介面卡的改進版本,該版本能夠對主體和環境進行雙重調節,從而允許在使用者指定的環境中生成預定義的角色。與專注於單影像調節的原始 IP 介面卡不同,本文方法引入了雙重調節和動態區域注入機制,以在生成的影像中同時表示這兩個概念。

舉例來說,如圖 4 所示,給定文字提示「天空下的沙漠,女巫讓仙人掌綻放出鮮豔、發著光的花朵」和沙漠環境影像,模型需要知道提示中的角色應該在仙人掌旁邊,還需要知道仙人掌、花朵在沙漠環境中生成。

這要求模型正確地 (1) 保留環境 (2) 保留角色 (3) 遵循提示。然而利用 IP 介面卡對環境進行編碼會極大地損害原始影像的特點(圖 8 中的 (2) 和 (3))。

圖片

圖片

區域 IP 介面卡很好的解決了這個問題。具體來說,本文引入了一種基於動態掩碼的方法,該方法利用模型每一層的字元文字嵌入和隱藏狀態之間的交叉注意力來實現。如圖 4 所示,本文方法將介面卡分別應用於與環境和角色相對應的區域,防止環境條件干擾角色的外觀,反之亦然。

對於區域 IP 介面卡,該研究使用字元文字和隱藏狀態之間的交叉注意力的動態掩碼。此掩碼的質量是分離字元和環境生成的關鍵。圖 5 顯示了下采樣塊的交叉注意力層中字元嵌入和隱藏狀態之間的注意力圖。可以觀察到,注意力並不集中在字元上,而是分散在這些塊的整個影像上。這表明擴散模型不會在這些層中分離字元和環境生成,而是專注於基於文字提示的整體影像結構。

圖片

具有開放式互動和整合遊戲機制的語言模型遊戲引擎

該研究構建了一個角色生活模擬遊戲,包含兩個 LLM 智慧體:

  • 一個智慧體充當世界模擬模型,負責設定遊戲環境、生成敘事和影像描述、跟蹤角色狀態並模擬角色行為;

  • 第二個智慧體充當使用者模型,模擬玩家與世界模擬模型的互動。它有三種型別的互動:在當前環境中繼續故事、將角色移動到不同的環境中,或與角色互動。在每種互動類別中,使用者都可以選擇提供角色的個性細節,或者引導角色的行為,從而影響模擬器的敘事生成。

圖片

實驗及結果

實驗中,該研究使用 GPT-4o 收集了一個由 5,000 個(角色影像、環境描述、文字提示)三元組組成的評估資料集。它包括 5 個角色(狗、貓、熊貓、女巫和巫師)、100 個不同的環境和 1,000 個文字提示(每個環境 10 個)。

環境一致性和角色一致性之間的比較

在該實驗中,作者主要將帶有塊丟失的區域 IP 介面卡和此前方法進行了比較。

如表 1 所示,本文方法在保持環境一致性和角色一致性方面始終優於以前的方法,同時在保持語義對齊方面也達到了可比的效能。

具體來說,在角色一致性方面,本文方法在 CLIP-I^C 中顯著超過 StoryDiffusion,在 DreamSim^C 中超過 StoryDiffusion 0.057。在環境一致性方面,本文方法也是優於其他方法。

圖片

圖 7 是與其他方法進行了定性比較。區域 IP 介面卡採用塊丟失技術,始終能夠生成具有一致性的影像,而其他方法可能無法包含角色或生成外觀不一致的角色。此外,研究還表明,本文方法能夠很好地平衡環境一致性和角色一致性,而其他方法可能會生成與條件環境不同的環境。

圖片

帶有塊丟失的動態區域 IP 介面卡的有效性

實驗證明,帶有塊丟失的區域 IP 介面卡對於按照文字提示將角色放置在環境中至關重要。

如表 2 所示,新增塊丟失可同時改善環境和角色的一致性,CLIP-I^E 中增加了 0.291,CLIP-I^C 中增加了 0.264,同時文字提示和生成的影像之間的對齊效果更好。此外,區域 IP 介面卡增強了角色一致性和文字對齊效果,同時保持了環境一致性的可比效能。

圖片

圖 8 給出了定性實驗結果。可以看到,基於使用 IP 介面卡的環境可以實現優良的環境重建,但角色一致性會受到環境風格的影響。

圖片

塊丟失技術可提升遵從文字提示詞的能力,從而讓生成的影像中有正確的角色和環境空間佈局。不過角色外觀仍會受到周圍環境的影響。透過將新提出的區域注入機制與新提出的動態掩碼方案相結合,生成的影像可實現強大的角色一致性,同時還能有效地考慮環境條件。

蒸餾專業化 LLM 的有效性

實驗表明,該團隊的多樣化使用者 - 模擬器互動資料可以有效地將 Gemma-2B 蒸餾成功能強大的遊戲引擎。

如表 3 所示,相比於該團隊蒸餾得到的模型,在進行零樣本推理時,小型 LLM(即 Gemma-2B、Llama3.2-3B)或稍大一些的 LLM(即 Gemma-7B)的表現會差一些,這說明針對遊戲世界和角色動作模擬任務而蒸餾更強大的 LLM 是有效的。

圖片

此外,從結果資料上看,這個蒸餾版模型的表現與 GPT-4o 相當,這也足以說明該方法的有效性。該團隊還研究了蒸餾資料規模對效能的影響,具體做法就是比較使用 1K 和 5K 資料來蒸餾 Gemma-2B 模型,看結果有何差異。結果沒有意外,使用更大的資料集在各個方面都更優。

相關文章