關係推理水平超越人類:DeepMind展示全新神經網路推理預測技術

機器之心發表於2017-06-07
想象一下在阿加莎·克里斯蒂(《東方快車謀殺案》作者)的偵探小說裡收集所有證據找出犯人的讀者,在足球滾到河邊時上前停球的小孩,甚至一個購物者在購買水果時比較獼猴桃和芒果的優點。

人類將這個世界理解為事物之間的關係。我們瞭解世界執行的方式,因為我們能對不同事物之間的聯絡做出邏輯推理——物理物件、語句,甚至抽象的想法。這種能力被稱為關係推理,它是人類智慧的核心。

我們以每天所有感官接收到的非結構化資訊為基礎構建這種關係。我們的眼睛會接收到大量光線,而我們的大腦會將這些「巨量嘈雜的混亂」組織到我們需要關聯的特定實體之中。

這兩篇論文都展示了有望理解關係推理這一挑戰的新方法。

開發具有人類級別靈活性和效率的人工智慧系統需要實現人類級別的認知能力,這意味著它們必須能從非結構化資料中推理實體並認識其中的關係。解決這個問題意味著系統可以將有限技能推廣到無限的新任務中,從而展示出強大的能力。

現代深度學習方法在解決非結構性資料問題的過程中已經有了很大進展,但此前的諸多方法忽略了考慮事物之間的聯絡。

在 DeepMind 最近發表的兩篇論文中,研究人員探索了深度神經網路對非結構化資料執行復雜關係推理的能力。第一篇論文《A simple neural network module for relational reasoning》中,DeepMind 描述了 Relation Network(RN),並表明它在一種高難度任務中具有超越人類的表現;而在第二篇論文《Visual Interaction Networks》中,研究者們描述了一種通用模型,它可以純粹基於視覺觀察結果來預測物理物件的未來狀態。

一種用於關係推理的簡單神經網路模組

為了更深入地探索關係推理的思想,並測試這種能力能否輕鬆加入目前已有的系統,DeepMind 的研究者們開發了一種簡單、即插即用的 RN 模組,它可以載入到目前已有的神經網路架構中。具備 RN 模組的神經網路具有處理非結構化輸入的能力(如一張圖片或一組語句),同時推理出事物其後隱藏的關係。

使用 RN 的網路可以處理桌子上的各種形狀(球體、立方體等)物體組成的場景。為了理解這些物體之間的關係(如球體的體積大於立方體),神經網路必須從影象中解析非結構化的畫素流,找出哪些資料代表物體。在訓練時,沒有人明確告訴網路哪些是真正的物體,它必須自己試圖理解,並將這些物體識別為不同類別(如球體和立方體),隨後通過 RN 模組對它們進行比較並建立「關係」(如球體大於立方體)。這些關係不是硬編碼的,而是必須由 RN 學習——這一模組會比較所有可能性。最後,系統將所有這些關係相加,以產生場景中對所有形狀對的輸出。

研究人員讓這一新模型處理了各種任務,其中包括 CLEVR——一個視覺問答任務集,旨在探索神經網路模型執行不同型別推理的能力,如計數、比較和查詢。CLEVR 由以下這樣的圖片組成:

關係推理水平超越人類:DeepMind展示全新神經網路推理預測技術

對於每個圖片,都有與圖中物體相關的問題。例如,對於上圖的問題可能是:「在圖中有一個小的橡膠物體和大個的圓筒形有相同的顏色,那麼它是什麼形狀的?」

目前的機器學習系統在 CLEVR 上標準問題架構上的回答成功率為 68.5%,而人類的準確率為 92.5%。但是使用了 RN 增強的神經網路,DeepMind 展示了超越人類表現的 95.5% 的準確率。

為了測試 RN 的多工適用性,研究人員還在另一個大不相同的語言任務中測試了 RN 的能力。DeepMind 使用 bAbI——Facebook 推出的基於文字的問答任務集。bAbI 由一些故事組成,這些故事由數量不一的句子組成,最終引向一個問題。如:「Sandra 撿起了足球」、「Sandra 進了辦公室」可能會帶來問題「足球在哪裡?」(答案是:辦公室)。

RN 增強網路在 20 個 bAbI 任務中的 18 個上得分超過 95%,與現有的最先進的模型相當。值得注意的是,具有 RN 模組的模型在某些任務上的得分具有優勢(如歸納類問題),而已有模型則表現不佳。

詳細的測試結果請參閱論文《A simple neural network module for relational reasoning》。

視覺互動網路(VIN)

這是在物理場景中進行預測的另一個關鍵的關係推理。人類在看過一眼之後就能推斷一個物體是什麼,接下來數秒會發生什麼。例如,如果你向牆上踢足球,大腦就會預測撞擊之後球會發生什麼,而後球的運動軌跡是什麼(球會以一定的速度比例撞向牆面,而牆紋絲不動)。

這些預測都受到複雜的推理認知系統的影響,從而對物體以及相關的物理作用進行預測。

在 DeepMind 開發「視覺互動網路(VIN,一種模擬這種能力的模型)」的相關工作中,VIN 能夠只從幾個視訊畫面中推理多個物體的狀態,然後使用狀態關係預測未來物體的位置。它不同於生成式模型。生成式模型可能視覺地「想象」接下來的視訊畫面,但 VIN 是預測關聯物體間的潛在關係狀態。

關係推理水平超越人類:DeepMind展示全新神經網路推理預測技術

VIN 動態預測(右)與真值模擬(左)的對比。VIN 接受 6 幀畫面的輸入之後,能夠預測 200 幀。大約 150 幀內,VIN 的預測近似於真值模擬。之後雖然有所不同,但依然能產生看上去合理的動態預測。

VIN 包括兩種機制:視覺模組和物理推理模組。二者結合能夠將視覺場景處理成一系列有區別的物體,並學習物理規則的一套隱式系統,從而預測未來物體會發生什麼。

研究人員在多種系統中測試了 VIN 的能力,包括桌球撞擊、行星系統的引力關係等。結果顯示 VIN 能夠準確預測物體在未來數百步發生的事。

在與之前公開的 VIN 模型、 變體(其中關係推理的機制被移除了)的實驗對比中,完整 VIN 的表現要好很多。

詳細的細節可檢視下面的第二篇論文。

總結

DeepMind 的兩篇論文都展現出了理解關係推理難題的有潛力的方法。通過將世界萬物分解成物體以及之間的關係,它們展現了神經網路可具備的強大的推理能力,讓神經網路能夠對物體進行新的場景結合。表面上看起來不同但本質上有共同的關係。

研究人員認為,這些方法有足夠的延展性,可被用於許多工,幫助人們建立更復雜的推理模型,讓我們更好地理解人類強大的、靈活的通用智慧中的關鍵成分。

論文一:一種用於關係推理的簡單神經網路模組(A simple neural network module for relational reasoning)

論文地址:https://arxiv.org/abs/1706.01427

關係推理水平超越人類:DeepMind展示全新神經網路推理預測技術

關係推理(relational reasoning)是通用智慧行為的核心組成部分,但神經網路卻難以學習到這種能力。在這篇論文中,我們描述了可以如何使用關係網路(RN/Relation Networks)作為簡單的即插即用模組來解決那些從根本上取決於關係推理的問題。我們在三種任務對使用 RN 增強的網路進行了測試,分別是視覺問答(使用了一個難度很大的資料集 CLEVR,我們實現了當前最佳且超過人類水平的表現)、基於文字的問答(使用了 bAbI 任務套件)和關於動態物理系統的複雜推理。然後,使用一個被精心調節過的資料集 Sort-of-CLEVR,我們表明強大的卷積網路不具備解決關係問題的通用能力,但可以通過使用 RN 增強而獲得這種能力。我們的研究表明了裝備了 RN 模組的深度學習架構可以如何隱含地發現和學習推理實體以及它們的關係。

關係推理水平超越人類:DeepMind展示全新神經網路推理預測技術

圖 2:視覺問答架構。問題在經過 LSTM 處理後產生一個問題嵌入(question embedding),而影象被一個 CNN 處理後產生一組可用於 RN 的物體。物體(圖中用黃色、紅色和藍色表示)是在卷積處理後的影象上使用特徵圖向量構建的。該 RN 網路會根據問題嵌入來考慮所有物體對之間的關係,然後會整合所有這些關係來回答問題。

論文二:視覺互動網路(Visual Interaction Networks)

論文地址:https://arxiv.org/abs/1706.01433

關係推理水平超越人類:DeepMind展示全新神經網路推理預測技術

人類只需簡單一瞥就能給出許多型別物理系統的未來狀態的豐富預測。另一方面,來自工程學、機器人學和圖形學的現代方法則往往受限於狹窄的領域,且需要對當前狀態的直接觀測。我們引入了視覺互動網路(Visual Interaction Network),這是一種用於從原始視覺觀察中學習物理系統的動態的通用模型。我們的模型由一個基於卷積神經網路的感知前端(perceptual front-end)和一個基於互動網路的動態預測器(dynamics predictor)組成。通過聯合訓練,這個感知前端可以學會將一個動態視覺場景解析成一組有係數的隱含物體表徵(factored latent object representations)。而其動態預測器則可以通過計算它們的互動和動態來這些狀態的未來情況,從而預測出一個任意長度的物理軌跡。我們發現,僅需要 6 個輸入視訊幀,該視覺互動網路就可以生成精準的未來軌跡,且這些軌跡的時間步數都是數以百計的,可涵蓋大量的物理系統。我們的模型也可以被應用於帶有不可見物體的場景,基於它們對可見物體的影響效果來推理它們的未來狀態,而且還可以隱含地推斷出物體的未知質量。我們的結果表明這種感知模組和基於物體的動態預測器模組可以歸納有係數的隱含表示(factored latent representations),其可以支援準確的動態預測。這項成果為根據複雜物理環境中的原始感官觀察而進行的基於模型的決策和規劃(model-based decision-making and planning)開啟了新的機會。

關係推理水平超越人類:DeepMind展示全新神經網路推理預測技術

圖 1:視覺互動網路:這裡描述了一般架構(說明見右下角)。其中視覺編碼器以連續幀的三元組為輸入,併為每個三元組中的三幀輸出一個狀態碼。該視覺編碼器在輸入序列上以一種滑動視窗的形式工作,然後得出一個狀態碼序列。應用於該編碼器的解碼後的輸出上的輔助損失(auxiliary losses)有助於訓練。然後該狀態碼序列被饋送入動態預測器,其包含多個互動網路核心(本例子中是 2 個),這些核心工作在不同的時間偏移(temporal offsets)上。然後這些互動網路的輸出被送入一個聚合器(aggregator),以得到下一個時間步的預測。這個核心以一種滑動視窗的形式工作,如圖所示。其預測的狀態碼是線性編碼的,然後在訓練時被用在預測損失中。

關係推理水平超越人類:DeepMind展示全新神經網路推理預測技術

圖 2:幀配對編碼器(Frame Pair Encoder)和互動網路(Interaction Net)。(a)Frame Pair Encoder 是一個 CNN 網路,可將兩個連續輸入幀轉換為一個狀態碼。在池化(pooling)處理成單位寬度和單位長度之前,重要特徵要與 x,y 座標軸相關聯。池化後的輸出被重塑成一個狀態碼。(b) 通過動態預測器的處理,互動網路(IN)可以被應用到每一個時間偏移當中。每一個 slot 都有相應的關係網路,這可以使每個 slot 都和其他 slot 相互關聯。而且每一個 slot 本身又都應用了一個自動態網路(self-dynamics net)。這兩種輸出結果通過變換器(affector)被累加求和,並且進行後期處理(post-processed),從而預測出新的 slot。

相關文章