神經網路也有空間意識!學會在Minecraft建立地圖,登上Nature子刊

机器之心發表於2024-07-23

這是人類首次證明神經網路可以建立自己的地圖。

想象一下,你身處一個陌生的小鎮,即使一開始周圍的環境並不熟悉,你也可以四處探索,並最終在大腦中繪製出一張環境地圖,裡面包含建築物、街道、標誌等相互之間的位置關係。這種在大腦中構建空間地圖的能力是人類更高階認知型別的基礎:例如,有理論認為,語言是由大腦中類似地圖的結構編碼的。

然而, 即使是最先進的人工智慧神經網路,也無法憑空構建這樣的地圖。

計算生物學助理教授、Heritage Medical 研究所研究員 Matt Thomson 說:「有一種感覺是,即使是最先進的人工智慧模型,也不是真正的智慧。它們不能像我們一樣解決問題;不能證明未經證實的數學結果,也不能產生新的想法。」

「我們認為,這是因為它們無法在概念空間中導航;解決複雜問題就像在概念空間中移動,就像導航一樣。人工智慧做的更像是死記硬背 —— 你給它一個輸入,它給你一個回應。但它無法綜合不同的想法。」

最近,Thomson 實驗室的一篇新論文發現,神經網路可以使用一種叫做「預測編碼」的演算法來構建空間地圖 。該論文於 7 月 18 日發表在《自然 - 機器智慧》(Nature Machine Intelligence)雜誌上。

圖片

  • 論文地址:https://www.nature.com/articles/s42256-024-00863-1

  • 程式碼地址:https://github.com/jgornet/predictive-coding-recovers-maps

在研究生 James Gornet 的帶領下,兩人在遊戲《我的世界》(Minecraft)中構建了環境,將樹木、河流和洞穴等複雜元素融入其中。他們錄製了玩家隨機穿越該區域的影片,並利用影片訓練了一個配備預測編碼演算法的神經網路

他們發現,神經網路能夠學習 Minecraft 世界中的物體彼此之間是如何組織的,並且能夠「預測」在空間中移動時會遇到的環境。

圖片

預測編碼演算法與 Minecraft 遊戲的結合成功地「教會」了神經網路如何建立空間地圖,並隨後使用這些空間地圖來預測影片的後續幀,結果預測影像與最終影像之間的均方誤差僅為 0.094%。

更重要的是,研究小組「開啟」了神經網路(相當於檢查內部結構),發現各種物體的表徵是相對於彼此進行空間儲存的。換句話說,他們看到了儲存在神經網路中的 Minecraft 環境地圖。

神經網路可以導航人類設計者提供給它們的地圖,例如使用 GPS 的自動駕駛汽車,但這是人類首次證明神經網路可以建立自己的地圖。這種在空間上儲存和組織資訊的能力最終將幫助神經網路變得更加「聰明」,使它們能夠像人類一樣解決真正複雜的問題。

這個專案展示了人工智慧真正的空間感知能力,而這在 OpenAI 的 Sora 等技術中仍然看不到,後者存在一些奇怪的故障。

James Gornet 是加州理工學院計算與神經系統(CNS)系的學生,該系涵蓋神經科學機器學習、數學、統計學和生物學。

「CNS 專案確實為 James 提供了一個地方,讓他從事其他地方不可能完成的獨特工作,」Thomson 說。「我們正在採用一種生物啟發的機器學習方法,讓我們能夠在人工神經網路中反向設計大腦的特性,我們希望反過來了解大腦。在加州理工學院,我們有一個非常容易接受這類工作的社群。」

執行預測編碼的神經網路

受預測編碼推理問題中隱式空間表示的啟發,研究者開發了一個預測編碼智慧體的計算實現,並研究了該智慧體在探索虛擬環境時學習到的空間表示。

他們首先使用 Minecraft 中的 Malmo 環境建立了一個環境。物理環境的尺寸為 40 × 65 格單位,囊括了視覺場景的三個方面:一個山洞提供了一個全域性視覺地標,一片森林使得視覺場景之間具有相似性,而一條帶有橋樑的河流則限制了智慧體如何穿越環境(圖 1a)。

圖片

智慧體遵循路徑,路徑由 A* 搜尋確定,以找到隨機取樣位置之間的最短路徑,並接收每條路徑上的視覺影像。

為了進行預測編碼,作者構建了一個編碼器 - 解碼器卷積神經網路,編碼器採用 ResNet-18 架構,解碼器採用轉置卷積的 ResNet-18 架構(圖 1b)。編碼器 - 解碼器架構使用 U-Net 架構將編碼的潛在單元傳遞到解碼器中。多頭注意力處理編碼潛在單元序列,以編碼過去的視覺觀察歷史。多頭注意力有 h = 8 個頭。對於維度為 D = C × H × W 的編碼潛在單元,在高度 H、寬度 W 和通道 C 的情況下,單個頭部的維度為 d = C × H × W/h。

圖片

預測編碼器透過最小化實際觀測值與預測觀測值之間的均方誤差來近似預測編碼。預測編碼器在 82,630 個樣本上進行了 200 個 epoch 訓練,使用了具有 Nesterov 動量梯度下降最佳化,權重衰減為 5 × 10^(-6),學習率為 10^(-1),並透過 OneCycle 學習率排程進行調整。最佳化後的預測編碼器預測影像與實際影像之間的均方誤差為 0.094,具有良好的視覺保真度(圖 1c)。

圖片

更多細節請參見原論文。

參考連結:

https://techxplore.com/news/2024-07-neural-network-minecraft.html

https://www.tomshardware.com/tech-industry/artificial-intelligence/neural-network-learns-to-make-maps-with-minecraft-code-available-on-github

相關文章