MIT 提出Network Dissection框架,全自動窺探神經網路訓練的黑箱

李亞洲發表於2017-07-01
MIT的新技術幫助闡釋了在視覺化資料上訓練的神經網路的內部機制。

MIT 提出Network Dissection框架,全自動窺探神經網路訓練的黑箱

神經網路通過分析大型訓練資料集學習如何完成計算任務,它對如今表現優異的人工智慧系統有巨大貢獻,例如語音識別系統、自動翻譯器和自動駕駛汽車。但神經網路是個黑箱,一旦被訓練,即使設計者本人也不瞭解其運作機制:即它們處理了什麼資料、如何處理資料。

兩年前,來自 MIT CSAIL 實驗室的計算機視覺研究團隊描述了一種窺視神經網路訓練黑箱的方法,從而得以識別視覺場景。該方法提供了一些有趣的洞見,但需要通過亞馬遜的 Mechanical Turk 眾包服務把資料傳送給人類稽核員稽核。

在今年的 CVPR 大會上,CSAIL 研究員對上述系統進行了升級,將會呈現一種完全自動化的版本。之前的論文給出了對一種神經網路(在一種任務上)的分析,新論文將會給出對四種神經網路(超過 20 種任務)的分析,包括識別場景與物體、為灰度影像上色、解謎等任務。一些新的網路太大,所以使用舊方法分析網路成本太高。

研究人員也在網路上進行了幾組實驗,不僅揭示了多種計算機視覺、計算攝影演算法(computational-photography algorithm)的特性,也為人類大腦的組織方式提供了一些證據。

神經網路之名,來自於對人類神經系統的模擬,有大量相當簡單,但密集連線的資訊處理節點。和神經元類似,神經網路的節點從臨近節點收取資訊訊號,然後啟用釋放自己的訊號,或者不反應。和神經元一樣,節點啟用反應的優勢是能變化。

在兩篇論文中,MIT 研究員修改神經網路,並通過訓練完成計算機視覺任務,以便於揭露每個節點針對不同輸入影像的反應機制。然後,他們選擇 10 張最能激發每個節點的輸入影像。

在之前的論文中,研究人員將這些影像傳送給 Mechanical Turk 僱傭的工作人員,讓他們識別這些影像的共同之處。而在新的論文中,研究人員使用計算機系統完成這一任務。

MIT 研究生 David Bau 說,「我們編目了 1100 多種視覺概念,比如綠色、土質紋理、木材、人臉、自行車輪、雪山等。我們利用他人開發的多個資料集,把它們與標註了密集視覺概念的資料集融合,得到了許多、許多的標籤,我們知道哪個畫素對應此標籤。」

該論文的其他作者包括共同第一作者 Bolei Zhou、MIT 電子工程與電腦科學系教授 Antonio Torralba、CSAIL 首席研究科學家 Aude Oliva、Torralba 的博士學生 Aditya Khosla,他現在是醫學計算公司 PathAI 的 CTO。

研究人員也知道哪張圖片的哪個畫素對應給定網路節點的最強回應。如今的神經網路是被組織進層內的,資料饋送給最低層,然後經過處理傳遞給下一層,以此類推。有了視覺化資料,輸入影像打碎為小塊,每一塊饋送給單獨的輸入節點。

在他們的一個網路中,來自給層節點的每個回應,研究人員都能追蹤到引發模式,從而識別對應的特定影像畫素。因為他們的系統能夠頻繁識別對應確切畫素群的標籤,因此能非常詳細的描述節點行為的特徵。

在資料集中,研究人員分層組織了這些視覺概念。每個級別都從最底層的概念開始,比如顏色、紋理,然後是材料、組成部分、物體、場景。通常來講,神經網路的低層能夠對應簡單的視覺特性,比如顏色和紋理,高層能夠激發對更復雜特性的回應。

但分層也使得研究員能夠量化訓練神經網路完成特定任務時的重點之處。例如,訓練一個神經網路為黑白影像上色,重點是大量識別紋理的節點。再比如,訓練一個網路追蹤視訊畫面中的物體,相比於訓練進行場景識別的網路,它要更加註重畫面識別的節點。在這種情況下,很多節點其實都專注於物體識別。

研究人員的實驗也能闡釋神經科學方面的難題。關於在受試人類大腦中植入電極從而控制神經失調的研究表明,大腦中的單個神經元激發回應特定的視覺刺激。這一假設原被稱為祖母神經元假設(grandmother-neuron hypothesis),更熟悉的名字是神經科學家最近提出的 Jennifer-Aniston 神經元假設。他們在發現多個神經病人的神經元傾向於只回應特定好萊塢明星的描述後,提出了該假設。

許多神經科學家對此解釋有所爭議。他們認為神經元叢集,而非單個神經元,控制著大腦中的感知識別。因此,Jennifer Aniston 神經元只是一堆神經元一起激發回應 Jennifer Aniston 的影像。而且也可能是許多神經元叢集共同回應該刺激,只不過沒被測試到而已。

因為 MIT 研究員的分析技術是完全自動化的,他們能夠測試在訓練神經網路識別視覺場景的過程中是否發生了類似的事。除了識別被調整為特定視覺概念的單個網路節點,他們也隨機選擇了結合節點。然而,節點的結合選擇出的視覺概念要比單個節點少很多,大約為 80%。

Bau 說,「在我看來,這表明神經網路實際在嘗試近似獲取一個祖母神經元。他們並不是想把祖母神經元的概念搞的到處都是,而是想把它分配給一個神經元。這是一個有趣的暗示,大部分人不相信這個架構如此簡單。」

論文:Network Dissection: Quantifying Interpretability of Deep Visual Representations

MIT 提出Network Dissection框架,全自動窺探神經網路訓練的黑箱

論文連結:http://netdissect.csail.mit.edu/final-network-dissection.pdf

我們提出了一種名為 Network Dissection 的通用框架,能夠通過評估單個隱藏單元與一系列語義概念間的對應關係,來量化 CNN 隱藏表徵的可解釋性。給出一個 CNN 模型,我們提出的該方法利用大量視覺概念的資料集來評分每個中間卷積層隱藏單元的語義。這些帶有語義的單元被賦予了大量標籤,從物體、組成部分、場景到紋理、材料和顏色。我們使用已提出的方法測試了這一假設:單元的可闡釋性等同於其隨機線性結合;接著當被訓練解決不同的監督和自監督訓練任務時,我們應用我們的方法對比了不同網路的潛在表徵。我們進一步分析了訓練迭代的影響,對比了使用不同初始化進行訓練的網路,檢查了網路深度和寬度的影響,並測量了 dropout 和批歸一化在深度視覺表徵的可闡釋性上產生的影響。我們證明了已提出的方法可以揭示 CNN 模型和訓練方法(超越了對其判別力的測量)的特性。

相關文章