史丹佛大學教授Christopher Manning提出全可微神經網路架構MAC:可用於機器推理

機器之心發表於2018-03-17

現今,神經網路已在影象識別、語音識別等感知層面取得巨大成功,但是在更進一步的推理層面仍有欠缺。為解決這一問題,本文提出了一種新的全可微神經網路架構 MAC,可使網路具有結構化推理和迭代思考的能力, 提升其推理的明確性和表現力;在通過 CLEVR 資料集解決視覺推理的任務中,MAC 實現了 98.9% 的當前最優準確率,同時所需資料量減少 5 倍。

推理,即通過先前已有知識,形成新推斷或者解決新問題的能力,是智慧體必不可少的基礎模組之一。如今神經網路在感知層面已取得巨大成功,我們希望在此基礎上更進一步,勝任一些需要更高階和更成熟思考的任務,因此讓神經網路擁有可以從事實得出結論的能力顯得非常重要。為了達到這一目的,我們思考如何最優地設計一個神經網路,使得它可以擁有結構化推理和迭代思考的能力,而這些能力,對於解決複雜問題必不可少。

具體而言,我們開發了一個全新的模型,並運用在視覺問答 (VQA) 的 CLEVR 專案中 (Johnson et al., 2017a)。VQA (Antol et al., 2015; Gupta, 2017) 是一個富有挑戰性的多模式任務,要求回答關於影象的自然語言問題。但是,Agrawal et al. (2016) 表明,無論在影象還是問題上,第一代成功的 VQA 模型都僅僅傾向於挖掘資料集的偏差,獲取淺層理解,而不是構建一個合理的感知和推導流程來得到正確答案 (Sturm, 2014)。CLEVR 的誕生就是為了解決這個問題。如圖 1 所示,資料集的特徵是無偏差、高度結構化的問題,解決這些問題需要一系列富有挑戰性的推理能力,如傳遞關係、邏輯關係、計數和比較,而不允許在此類推理中採取捷徑。

史丹佛大學教授Christopher Manning提出全可微神經網路架構MAC:可用於機器推理

問:黃色小圓柱前面的那個小方塊和綠色反光的物體右邊的小物體顏色一樣嗎?答:不一樣。

圖 1:一個 CLEVR 例項。為了便於描述,加入了顏色。

但是,深度學習方法往往難以在具有組合性和結構性特點的任務中表現優秀 (Garnelo et al.,2016; Lake et al.,2017)。絕大多數的神經網路本質上都是巨大的關聯引擎,為了提升在觀測樣本中的準確率,神經網路會擬合出任何的統計模式,即使它們可能是錯誤的。網路深度、規模和統計特性可以使其應對各種充滿噪聲的資料,往往也限制了模型的可解釋性,並阻礙給出明確合理的推理過程,而這些推理過程在以解決問題為目的的任務中是必不可少的。為了緩解這個問題,最近一些方法採用類似程式語言中表示式樹的符號結構,從一堆預定義的確定集合中組成神經網路的模組。但因此,它們需要依賴外部預先設定好的結構化表達、功能性程式、不可靠的人工分析或者專家說明,同時需要相當複雜的多階段強化學習訓練框架。這些模型結構上的嚴格要求,以及使用的一系列專門的指定操作模式,最終降低了模型的魯棒性和泛化能力。

史丹佛大學教授Christopher Manning提出全可微神經網路架構MAC:可用於機器推理

圖 2:模型概述。MAC 網路由一個輸入神經元,一個核心的迴圈神經網路以及一個輸出神經元組成。(1)輸入神經元將原始影象和問題轉化為分散式向量表徵。(2)核心的迴圈神經網路將問題分解為一系列運算(也叫控制),它們可以從影象(知識庫)中檢索資訊,並將結果聚合為迴圈記憶。通過這些運算,網路按照序列推理問題。(3)輸出分類器使用問題和最終記憶狀態,計算得出最終答案。

平衡端到端神經網路方法的泛化性和魯棒性的同時,也要滿足更明確的結構化推理的要求,為此我們提出 MAC 網路:一種新的全可微神經網路結構,來完成推理任務。通過排序新的迴圈 MAC 神經元(記憶、注意力、組合神經元),我們的模型實現結構化的明確推理。MAC 神經元是受到計算機架構的設計原則啟發而有的神經元,我們希望它可以捕獲基本但通用的推理步驟中的內在原理。MAC 神經元可以明確的將記憶從控制中分離出來,這兩種結構都是迴圈表徵的,MAC 神經元由三個運算元串聯執行組成,以展現推理步驟:控制元更新控制狀態,以便在每次迭代中參與待解答問題的一些部分; 讀取元在控制狀態和記憶狀態的引導下,從知識庫中提取資訊; 寫入元將這些檢索得到的資訊整合進記憶狀態,迭代計算答案。MAC 神經元的這個通用設計將作為結構先驗,引導 MAC 網路將問題分解為一系列基於注意力的推理運算,並解決它們。在這個過程中,分解是直接基於資料的,而沒有使用任何的強監督手段。通過神經元之間的自我注意力的聯絡,MAC 網路可以通過一種柔和的方法,表徵任意複雜程度的無環推理圖,同時依然突出物理結構順序和端到端的可微性,以適應簡單地通過反向傳播演算法進行模型訓練。

我們展示模型在 CLEVR 任務及相關資料集上的定性和定量表現。在大量的推理任務和設定中——無論是原始資料集還是更復雜的人為問題——模型都達到了當前最佳的準確率。值得注意的是,在涉及到計數和加總能力的問題中,MAC 網路的表現格外優秀,而這些問題往往是其他 VQA 模型(Santoro et al.,2017; Hu et al.,2017; Johnson et al.,2017b)非常難以完成的挑戰。同時,我們也表明 MAC 網路的學習速度非常快,另外,和其他方法相比,它有效泛化所需的資料量級也更小。最後,大量的簡化測試和誤差分析印證了 MAC 網路的魯棒性、多樣性和泛化能力。這些結果突出說明了在推動神經網路解決組合推理論證時,加入強結構先驗的重要性和價值。根據 Bottou(2014)提出的設想實現,以及在模型中加入新結構,使它明確執行一系列互相實現的運算操作,讓 MAC 網路可以從零開始,一步一步發展出推理能力。雖然每個神經元的功能都被限制在一個很小的可能的連續行為範圍之內,也僅僅是為了實現一個簡單的推理運算,當它們被連線在一起,組成 MAC 網路時,整個系統就變得富於表現力且強大。

史丹佛大學教授Christopher Manning提出全可微神經網路架構MAC:可用於機器推理

圖 3:MAC 神經元結構。MAC 迴圈神經元包含一個控制元、一個讀取元和一個寫出元,執行雙重控制和記憶隱藏狀態。控制元連續參與到任務描述(問題)的不同方面,更新控制狀態,並在每一個時間步長中表徵神經元實現的推理操作。在控制元的引導下,讀取元從知識庫(影象)中提取出資訊。寫出元整合檢索得到的資訊,並記入記憶狀態,產生根據當前推理運算得出的新的中間結果。

MAC 網路

MAC 網路是一個端到端可微架構,旨在實現明確的多階段推理論證過程。它連線了 p 個迴圈 MAC 神經元,其中每個負責一步推理步驟。給定知識庫 K(在 VQA 場景中是一個影象)和任務描述 q(在 VQA 場景中是一個問題),模型得出一系列的 p 個和知識庫相互作用的推理運算,並通過迭代整合,控制資訊,來完成手中的任務。它有三個組成部分:(1)一個輸入神經元,(2)核心的迴圈網路,由 p 個 MAC 神經元組成,以及(3)一個輸出神經元。

史丹佛大學教授Christopher Manning提出全可微神經網路架構MAC:可用於機器推理

表 1:CLEVR 和 CLEVR-Humans 準確率,分別通過基準方法、先前方法和我們的方法(MAC)得到。對於 CLEVR-Humans, 我們展示了微調前後的結果。(*)表示使用了專案標籤作為額外監督資訊。(†)表示使用了資料增強。(‡)表示在原始畫素下訓練模型。

論文:Compositional Attention Networks for Machine Reasoning

史丹佛大學教授Christopher Manning提出全可微神經網路架構MAC:可用於機器推理

論文連結:https://arxiv.org/abs/1803.03067

摘要:我們提出了 MAC 網路:一種新的全可微神經網路架構,旨在提升推理的明確性和效能。受到計算機架構第一原則的啟發,MAC 不再使用統一的神經網路黑箱架構,轉而採用了提倡透明性、多用途的設計。模型將問題分解為一系列基於注意力的推理步驟,然後處理它們,其中每一個步驟都由全新的記憶單元、注意力單元和結構性單元(合稱 MAC 神經元)通過將控制和記憶進行分離來實現。通過將神經元連線到一起,並引入結構性約束來規範其互動,MAC 非常有效地學習並實現迭代推理過程,這種學習是通過端到端方法從資料中直接獲取得到的。在模型通過 CLEVR 資料集解決視覺推理問題時,我們通過比較它和先前最優的模型的誤差率,論述了 MAC 所表現出的優點、魯棒性和可解釋性——MAC 實現了當前最優的 98.9% 的準確率。更重要的是,我們說明了模型的計算和資料效率都非常高,尤其是,為了取得很好的結果,它所需要的資料量比其他現有模型所需要的資料量少 5 倍。

相關文章