選自DeepMind,作者:S. M. Ali Eslami、Danilo Jimenez Rezende,機器之心編譯。
給定立方體積木的幾個側面剪影,你能否「腦補」出它的整個 3D 形狀?這看起來像是行測中的圖形題,考驗人們從 2D 畫面到 3D 空間的轉換能力。在 DeepMind 最新發表在頂級期刊 Science 的論文《Neural scene representation and rendering》中,計算機通過「生成查詢網路 GQN」也擁有了這種空間推理能力。
DeepMind 創始人(同時也是該論文的作者之一)戴密斯·哈薩比斯表示:「我們一直著迷於大腦是如何在意識中構建空間影像的,我們的最新《Science》論文引入了 GQN:它可以從一些 2D 快照中重建場景的 3D 表示,並可以通過任何新的視角不斷增強這一表示。」
理解視覺場景時,我們依賴的不僅僅是眼睛:我們的大腦利用已有知識來推理,並做出遠遠超過視線所及的推論。例如,當第一次進入一個房間時,你會立即認出裡面的物品以及它們的位置。如果你看到一張桌子的三條腿,你會推斷可能還有第四條腿,形狀和顏色相同,只不過在視線之外。即使你看不到房間裡的所有東西,你也可以勾畫出它的佈局,或者從另一個角度想象它的樣子。
這些視覺和認知任務對人類來說似乎毫不費力,但對我們的人工智慧系統來說卻是一個重大挑戰。如今,最先進的視覺識別系統需要使用由人類標註的大量影像資料來進行訓練的。獲取這些資料是一個成本高昂且耗時的過程,需要人工對資料集中每個場景中每個物件的每個方面進行標記。而實驗結果通常只能捕獲到整體場景內容的一小部分,這限制了根據該資料訓練的人工視覺系統。隨著我們開發出現實世界中更復雜的機器,我們希望它們可以充分理解周圍的環境:最近的地面在哪裡?沙發是用什麼材料做的?哪一個光源產生了所有的陰影?電燈開關可能在哪裡?
Learning to See – Ali Eslami_騰訊視訊
v.qq.com
在這項發表在 Science 的研究中,DeepMind 引入了生成查詢網路(Generative Query Network/GQN)的框架,其中機器通過到處走動並僅在由它們自己獲取的資料中訓練來感知周圍環境。該行為和嬰兒、動物很相似,GQN 通過嘗試觀察周圍的世界並進行理解來學習。以此,GQN 得以學習合理的場景以及它們的幾何性質,而不需要任何場景內容的人類標記。
GQN 模型由兩部分構成:一個表徵網路以及一個生成網路。表徵網路將智慧體的觀察作為輸入,並生成一個描述潛在場景的表徵(向量)。然後生成網路從之前未觀察過的視角來預測(想象)該場景。
Generative Query Networks_騰訊視訊
v.qq.com
表徵網路不知道生成網路將被要求預測哪些視角,因此必須找到儘可能準確描述場景真實佈局的有效方法。表徵網路能通過簡明的分散式表示捕獲最重要的元素,例如目標位置、顏色和房間佈局。在訓練過程中,生成器學習環境中的典型目標、特徵、關係和規律。這組共享的「概念」使表徵網路能夠以高度壓縮、抽象的方式來描述場景,讓生成網路在必要時填寫細節。例如,表徵網路將把「藍色立方體」簡潔地表示為一個小的數值集合,生成網路將知道從特定的角度來看,這是如何以畫素的形式表現出來的。
我們在模擬 3D 世界裡一組由程式生成的環境中對 GQN 進行了受控實驗,這些環境包含隨機位置、顏色、形狀和紋理的多個目標,還有隨機光源和嚴重遮擋。在這些環境下訓練後,我們使用 GQN 的表徵網路來生成新的、以前未見過的視角下的場景表徵。我們在實驗中表明,GQN 具有幾個重要的特性:
- GQN 的生成網路可以從新的視角非常精確地「想象」以前未見過視角下的場景。當給定場景表徵和新視角時,它會生成清晰的影像,而不需要預先規定角度、遮擋或照明的規律。因此,生成網路是從資料中學習的近似渲染器(renderer):
- GQN 的表徵網路可以學習計數、定位和分類目標,並且不需要任何目標級的標註。即使它的表徵可能是很小的,GQN 在查詢視角的預測也能達到很高的準確率,幾乎和真實場景無法分辨。這意味著該表徵網路可以準確地感知,例如識別積木塊的精確配置:
- GQN 可以表徵、測量和減少不確定性。它可以計算關於場景可信度的不確定度,即使其內容不是完全可見的,並且它可以組合一個場景的多個部分視角來構建一致的整體。下圖中展示了它的第一人稱視角和自頂向下視角的預測。該模型通過預測的易變性來表達不確定度,並隨著它在迷宮中移動而逐漸減小(灰色椎體表示觀察位置,黃色椎體表示查詢位置)。
- GQN 的表徵允許實現魯棒性的、資料效率高的強化學習。當給定 GQN 的緊湊型表徵時,如下所示,當前最優的深度強化學習智慧體相比於 model-free 的基線智慧體在學習完成任務上有更高的資料效率。對於這些智慧體,通用網路中編碼的資訊能被視為環境的先驗知識:
GQN 建立在最近大量多視角的幾何研究、生成式建模、無監督學習和預測學習的基礎上,它展示了一種學習物理場景的緊湊、直觀表徵的全新方式。重要的是,提出的這種方法不需要特定域的工程以及消耗時間對場景內容打標籤,使得同一模型能夠應用到大量不同的環境。它也學習了一種強大的神經渲染器,能夠產生準確的、全新視角的場景影像。
DeepMind 認為,相比於更多傳統的計算機視覺技術,他們的方法還有許多缺陷,目前也只在合成場景下訓練工作的。然而,隨著新資料資源的產生、硬體能力的發展,DeepMind 希望探索 GQN 框架應用到更高解析度真實場景影像的研究。未來,探索 GQN 應用到更廣泛的場景理解的工作也非常重要,例如通過跨空間和時間的查詢來學習物理和移動等常識概念,還有應用到虛擬和擴增實境等。
雖然在我們的研究能夠實踐部署之前,還有很多研究需要完成,但我們相信該研究是邁向自動場景理解相當大的一步。
Representation and Rendering_騰訊視訊
v.qq.com
論文:Neural scene representation and rendering
論文連結:science.sciencemag.org/content/360…
摘要:場景表徵,即將視覺感測資料轉換為簡明描述的過程,是智慧行為的基本要求。最近的研究工作表明在為神經網路提供大型標註資料集的情況下,它在場景表徵中有優秀的效能,但是移除神經網路對人力標註的依賴仍然是一個重要的開放性問題。為此,我們引進了生成查詢網路(Generative Query Network /GQN),機器在這個框架中將學習如何僅使用自己的感測器表徵場景。GQN 將從不同視角拍攝的場景圖作為輸入,並用來構建內部表徵,然後模型會根據這樣的表徵預測以前沒見過視角下的場景外觀。GQN 展示了在沒有人類標註或領域知識下的表徵學習,為機器的自動學習及其對周圍世界的理解鋪平了道路。