UC Berkeley新研究:通過深度學習建模注意點取樣陣列

劉曉坤發表於2017-11-12
近日,加州大學伯克利分校(UC Berkeley)在研究中嘗試使用深度學習計算模型解釋生物學中觀察到的自然特徵,在建模靈長類動物視網膜的注意點取樣點陣的基礎上,這些結果可引領主動視覺系統前端的新型設計方式的未來思考,並希望這種學科之間的良性迴圈仍會持續。

我們為什麼需要注意力

我們通過眼睛觀察到的只是世界的很小一部分,雙眼只能取樣周遭光場的少許片段,即使在這些片段中,大多數分辨力都是專注於神經節細胞(ganglion cell)濃度最高的注視中心。這些細胞負責把視網膜上的影象從眼睛傳遞到大腦。神經節細胞的空間分佈高度不均勻。結果,我們的大腦接收到一個「注視點」(foveated)影象。

UC Berkeley新研究:通過深度學習建模注意點取樣陣列

一張注視中心分別為蜜蜂(左)和蝴蝶(右)的注視點影象。


儘管這些細胞只覆蓋了一部分視野,但是大約 30% 的大腦皮層會處理其提供的訊號。如果大腦集中注意力處理整個視野,則體積會大到不切實際。可以說,專注於視覺的神經處理的數量相當大,如果被有效利用將有助於生存。

注意力是很多智慧系統的基本屬性。由於物理系統的資源有限,有效分配就變得很重要。注意力涉及到動態地分配資訊處理資源從而最優地完成一個具體任務。在自然中,這種設計在動物視覺系統中十分常見。通過在場景中快速移動注視點,有限的神經資源高效地散佈在整個視覺場景內。

外顯注意力(Overt Attention)

這項工作中,我們研究了涉及感知器官清晰運動的外顯注意力機制,下圖中這隻處於青春期的跳躍蜘蛛是它的一個例項:

UC Berkeley新研究:通過深度學習建模注意點取樣陣列

一隻使用外顯注意力正在跳躍的蜘蛛。

我們可以看到這隻蜘蛛通過認真審慎地移動身體來處理所處環境的不同部分。如果你盯著它半透明的頭部時,甚至可以看到蜘蛛的眼動軌跡與人類眼動類似。這些眼動叫作 saccades。

本研究中,我們構建了一個模型視覺系統,該系統掃視整個場景以尋找和識別目標,它允許我們通過探索優化效能的設計引數來研究注意力系統的特性。視覺神經科學感興趣的一個引數是視網膜取樣點陣,它定義了人眼中神經節細胞陣列的相關位置。

UC Berkeley新研究:通過深度學習建模注意點取樣陣列

注意單個場景不同部分的模型視網膜取樣點陣。

UC Berkeley新研究:通過深度學習建模注意點取樣陣列

控制注意力視窗的神經網路模型。

通過梯度下降逼近進化

大概是出於進化的壓力,大自然調整了靈長類動物視網膜中的取樣陣列,因此我們的視力在搜尋物體時體現出十分優秀的屬性。為了代替這種模擬演化,我們利用一個更高效的隨機梯度下降過程而構建一個處處可微的動態注意力模型。

目前大多數神經網路有可學習的特徵提取器構成,而這些特徵提取器可以將固定的輸入轉化為如類別那樣更加抽象的表徵。在訓練過程中模型能續能學到內部特徵,即權重矩陣和卷積核等,而保持輸入的幾何屬性仍然不變。我們擴充套件了深度學習框架以創造可學習的結構特徵。此外,我們還學習了神經視網膜取樣陣列的幾何形狀。

UC Berkeley新研究:通過深度學習建模注意點取樣陣列

取樣陣列中一個單元的結構化特徵

我們模型的視網膜取樣陣列是通過反向傳播學習的,它就如同神經網路中調整權重的方式,我們調整視網膜並列式感知的引數以優化損失函式。我們初始化視網膜取樣陣列為標準的正方形表格,然後使用梯度下降更新這種排列的引數。

UC Berkeley新研究:通過深度學習建模注意點取樣陣列

從初始化陣列使用梯度下降學習結構化特徵

隨著時間的推移,這種排列將會收斂到區域性最優的配置以最小化任務損失。本案例中,我們在更大的視覺場景分類 MNIST 手寫數字。以下展示了訓練期間視網膜排列是如何變化的:

UC Berkeley新研究:通過深度學習建模注意點取樣陣列

初始化後分別訓練 1、10、100 個 epoch 所產生的視網膜取樣點陣變化情況。

令人驚奇的是,每個單元都以非常結構化的形式變化,從均勻的網格轉化為一個離心的獨立性點陣。我們注意到高度敏感的單元集中在取樣陣列的中心。此外,每個單元都會擴散它們獨立的中心以創造能覆蓋整張圖片的取樣點陣。

控制注意點的出現

因為我們的模型是通過電腦模擬,所以我們能賦予它自然界找不到的屬性以觀察是否還有其它的點陣排列模式出現。例如,我們可以重新縮放整個取樣點陣以覆蓋更小或更大的區域,這可以賦予模型放大或縮小影象的能力。

UC Berkeley新研究:通過深度學習建模注意點取樣陣列

視網膜取樣點陣同樣有能力重新縮放自身

我們在下面展示了所學到的不同視網膜點陣佈局。為了比較,左圖展示了模型不具備縮放功能的視網膜點陣佈局,而右圖展示了能夠縮放的視網膜點陣佈局。

UC Berkeley新研究:通過深度學習建模注意點取樣陣列

(左)只能變換的模型視網膜點陣;(右)既能變換又能縮放的模型視網膜點陣。

當注意力模型能夠縮放時,就會出現一個不同的佈局。注意:視網膜神經節細胞中的多樣性較少。這些細胞保留很多初始特性。為了更好地利用學得的視網膜佈局,我們對比了具備固定(不可學習)點陣、可學習點陣(不能縮放)和可學習、能夠縮放點陣的視網膜的效能。

UC Berkeley新研究:通過深度學習建模注意點取樣陣列

模型在 Cluttered MNIST 資料集的兩種版本(資料集 1 和資料集 2)上的效能。資料集 2 包含可隨機改變大小的 MNIST 數字,因此資料集 2 比資料集 1 難度更高。

或許結果不會讓人驚訝,縮放/可學習的點陣顯著優於只能變換的固定點陣。但是,有趣的是,僅具備變換能力的可學習點陣的效能和具備變換能力還能縮放的點陣效能一致。這進一步證明縮放和靈長類動物視網膜的注意點佈局的功能是一致的。

注意力的可解釋性

早些時候,我們介紹了注意力高效利用有限資源的能力。注意力還能夠幫助我們從內部理解構建的複雜系統如何運轉。當我們的視覺模型在處理過程中注意影象的特定部分時,我們能夠了解該模型運用哪一部分來執行任務。在我們的案例中,該模型通過學習將注意點放置在數字上來解決識別任務,這說明注意力能夠幫助分類數字。我們還看到最下方模型利用其縮放能力來識別數字。

UC Berkeley新研究:通過深度學習建模注意點取樣陣列

我們的模型隨著時間的注意力移動。固定點陣的模型(上),學得的點陣(中),學得的具備縮放能力的點陣(下)。

結論

通常,我們從生物學中尋找靈感來構建機器學習模型。Hubel 和 Wiesel 的研究啟發了神經認知機(Neocognitron)模型的出現,該模型又反過來促進卷積神經網路的發展。在該研究中,我們選擇了另一個方向,嘗試使用深度學習計算模型解釋生物學中觀察到的自然特徵。未來,這些結果可能會引領我們思考主動視覺(active vision)系統前端的新型設計方式,根據靈長類動物視網膜的注意點取樣點陣(foveated sampling lattice)進行建模。我們希望這種學科之間的良性迴圈未來仍會持續。

更多資訊,請檢視我們發表在 ICLR 2017 的論文《Emergence of foveal image sampling from learning to attend in visual scenes》:https://arxiv.org/abs/1611.09430

參考文獻

1. Hubel, David H., and Torsten N. Wiesel.「Receptive fields, binocular interaction and functional architecture in the cat's visual cortex.」The Journal of physiology 160.1 (1962): 106-154.

2. Fukushima, Kunihiko, and Sei Miyake.「Neocognitron: A self-organizing neural network model for a mechanism of visual pattern recognition.」Competition and cooperation in neural nets. Springer, Berlin, Heidelberg, 1982. 267-285.

3. LeCun, Yann, et al.「Handwritten digit recognition with a back-propagation network.」Advances in neural information processing systems. 1990.

4. Gregor, Karol, et al.「DRAW: A Recurrent Neural Network For Image Generation.」International Conference on Machine Learning. 2015. 

原文連結:http://bair.berkeley.edu/blog/2017/11/09/learn-to-attend-fovea/

相關文章