智慧體的ChatGPT時刻!DeepMind通用AI向人類玩家進化,開始理解遊戲

机器之心發表於2024-03-14

在 AI 智慧體這個領域,谷歌 DeepMind 又有了一項里程碑式研究。

影片遊戲是 AI 系統的重要試驗場。與現實世界一樣,遊戲也是豐富的學習環境,具有反應靈敏的實時設定和不斷變化的目標。

從早期與雅達利遊戲的合作,到人類大師級水平的《星際爭霸 II》系統 AlphaStar,谷歌 DeepMind人工智慧和遊戲領域陸續推出過不少影響力研究。

剛剛,谷歌宣佈了又一項里程碑式研究:SIMA(Scalable Instructable Multiworld Agent),一種適用於 3D 虛擬環境的通用 AI 智慧體。智慧體的ChatGPT時刻!DeepMind通用AI向人類玩家進化,開始理解遊戲

加州大學歐文分校助理教授 Roy Fox 表示,SIMA 讓我們離自主智慧體的「ChatGPT 時刻」又近了一步。

谷歌 DeepMind 研究工程師 Tim Harley 表示:「想象有一天,我們可以讓像 SIMA 這樣的智慧體與你和你的朋友一起玩遊戲,而不是讓你與超人智慧體對抗。」

但目前的 AI 系統仍然沒有接近人類水平。例如,在《無人深空》遊戲中,AI 智慧體只能完成人類能完成的 60% 的任務。當研究人員取消人類發出 SIMA 指令的能力時,他們發現該智慧體的表現比以前差了很多。

AI 已經不甘心只作 NPC 了

谷歌與八家遊戲工作室合作,在九款不同的影片遊戲中對 SIMA 進行了訓練和測試,包括《無人天空》、《拆遷(Teardown)》、《英靈神殿》和《模擬山羊 3》。

圖片

SIMA 產品組合中的每款遊戲都是全新的互動世界,包括一系列需要學習的技能,從簡單的導航和選單使用,到開採資源、駕駛飛船或製作頭盔。

圖片

同時,谷歌還使用了四個研究環境 — 包括使用 Unity 構建的一個名為「建築實驗室」的新環境。在這個實驗室中,智慧體需要用積木搭建雕塑,以測試對物體的操作能力以及對物理世界的直觀理解。

然後,谷歌在遊戲組合中記錄成對的人類玩家,其中一名玩家觀察並指導另一名玩家,以捕獲語言指令。隨後讓玩家自由玩遊戲,重新觀察他們的行為,並記錄下可能導致其遊戲行為的指令。

所有這些都被提供給 SIMA ,以學習預測螢幕上接下來會發生什麼。透過在不同的遊戲世界學習,SIMA 捕捉到了語言與遊戲行為之間的聯絡。

「這項研究標誌著首次有 AI 智慧體證明自己能夠理解各種遊戲世界,並能像人類一樣按照自然語言指令在遊戲世界中執行任務。」谷歌表示。

SIMA 並不只是一個由 AI 驅動的 NPC ,而是遊戲中影響結果的另一個「玩家」。

谷歌還指出,SIMA 的研究並不是為了獲得高分。對於 AI 系統來說,學會玩一款影片遊戲固然是技術層面的重大突破,但學會在各種遊戲環境中遵從指令,可以讓 AI 智慧體在任何環境中發揮更大的作用。

在技術報告中,谷歌也展示瞭如何透過語言介面將高階 AI 模型的能力轉化為現實世界中有用的行動。

圖片

技術報告:

https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/sima-generalist-ai-agent-for-3d-virtual-environments/Scaling%20Instructable%20Agents%20Across%20Many%20Simulated%20Worlds.pdf

SIMA:通用 AI 智慧體來了

SIMA 的元件包括預訓練好的視覺模型,以及一個包含記憶體並輸出鍵盤和滑鼠操作的主模型,如下圖所示。

具體來講,SIMA 包含了一個專為精確影像語言對映而設計的模型和一個預測螢幕上接下來會發生什麼的影片模型。谷歌根據 SIMA 產品組合中特定於 3D 設定的訓練資料對這兩個模型進行了微調。

圖片

下圖為 SIMA 智慧體架構細節。

圖片

作為一種 AI 智慧體,谷歌的 SIMA 可以感知和理解各種環境,然後採取行動來實現指定的目標。

重要的是,SIMA 既不需要訪問遊戲的原始碼,也不需要定製的 API。它只需要兩個輸入:螢幕上的影像以及使用者提供的簡單自然語言指令。SIMA 使用鍵盤和滑鼠輸出來控制遊戲中的核心角色來執行這些指令。人類可以使用這個簡單的介面,這意味著 SIMA 可以與任何虛擬環境進行互動。

下圖為 SIMA 資料中的指令。

圖片

當前版本的 SIMA 透過 600 項基礎技能進行評估,涵蓋導航(例如「左轉」)、物件互動(「爬梯子」)和選單使用(「開啟地圖」)。

圖片

谷歌訓練 SIMA 執行簡單任務,大約 10 秒內就能完成。

圖片

SIMA 智慧體的軌跡如下圖所示。

圖片

谷歌希望未來的智慧體能夠處理需要高階戰略規劃和多個子任務才能完成的任務,例如「尋找資源和建立營地」。這是人工智慧的一個重要目標,雖然大型語言模型已經演化出了能夠捕獲世界知識並生成規劃的強大系統,但它們目前缺乏代表人類採取行動的能力。

跨遊戲的強泛化能力

谷歌證明,受過多種遊戲訓練的智慧體比僅學習如何玩一種遊戲的智慧體表現更好。

在谷歌的評估中,SIMA 智慧體在一組九個 3D 遊戲上進行了訓練,其表現顯著優於僅在每個單獨的遊戲上進行訓練的所有專業智慧體。

更重要的是,平均而言,接受過除一款遊戲之外的所有遊戲訓練的智慧體在這個未見過遊戲上的表現幾乎與專門訓練過的智慧體一樣好。因此,這種在全新環境中發揮作用的能力凸顯了 SIMA 超越其訓練的泛化能力。

谷歌表示,這是一個很有潛力的初步結果,不過 SIMA 需要進行更多的研究才能在見過和未見過遊戲中達到人類水平。

此外,SIMA 的效能依賴於語言。在控制測試中,智慧體沒有接受任何語言訓練或指令,它的行為方式雖適當但漫無目的。例如,智慧體可能會收集資源(這是一種常見行為),而不是按照指令去走。

谷歌評估了 SIMA 按照指令完成近 1500 個具體遊戲內(in-game)任務的能力,其中部分使用了人類裁判。作為基線比較,谷歌使用環境專用 SIMA 智慧體的效能(經過訓練和評估以遵循單個環境中的指令)作為評估指標。

如下圖所示,谷歌與三種型別的通用 SIMA 智慧體進行了比較,每種智慧體都經過多個環境的訓練。

圖片

未來,谷歌期待在更多訓練環境中進一步構建 SIMA,並納入更強大的模型,從而提高 SIMA 對高階語言指令的理解能力以實現更復雜的目標。當然,隨著 SIMA「暴露」在更多的訓練世界中,谷歌希望它變得更加通用。

參考連結:

https://deepmind.google/discover/blog/sima-generalist-ai-agent-for-3d-virtual-environments/

https://www.technologyreview.com/2024/03/13/1089764/an-ai-that-can-play-goat-simulator-is-a-step-towards-more-useful-ai/

https://www.fastcompany.com/91058360/deepmind-new-ai-agent-video-games

相關文章