『cs231n』卷積神經網路的視覺化與進一步理解

weixin_34391854發表於2017-07-11

cs231n的第18課理解起來很吃力，聽後又查了一些資料才算是勉強弄懂，所以這裡貼一篇博文（根據自己理解有所修改）和原論文的翻譯加深加深理解，其中原論文翻譯比博文更容易理解，但是太長，而博文是業者而非學者所著，看著也更舒服一點。

另，本文涉及了反向傳播的backpropagation演算法，知乎上有個回答很不錯，備份到文章裡了，為支援原作者，這裡給出知乎原文連線

視覺化理解卷積神經網路

這張PPT是本節課的核心，下面我來說說這張圖。

視覺化神經網路的思想就是構建一個逆向的卷積神經網路，但是不包括訓練過程，使用原網路各個層的feature map當作輸入，逆向生成畫素級圖片（各個層對應的具體逆操作實現方法下面的文獻中有介紹），目的是研究每一層中每一個神經元對應的（或者說學習到的）特徵到底是什麼樣的。

我們首先獲取某一層的feature map,然後將除了想要研究的那個神經元之外所有神經元置零，作為返卷積網路的輸入（a圖所示），經過逆向重構後，得到的圖片就反映了這個神經元學習到的特徵。

Relu層的逆處理得到了特殊關注，向前傳播中，小於零的神經元直接置零（b1），如果按照計算梯度的反向傳播演算法（backpropagation）的話那麼應該在向前傳播時置零的位置仍然置零（b2），而原論文按照deconvent的方法，相當於把Relu對稱化，直接對反向的特徵圖進行了標準的Relu，即小於零的神經元反向時也置零（b3），但是老師則採用了guided backpropagation結合了兩種方法，即滿足上兩條的全都置零（b4），子圖c用表示式解釋了這一過程。

根據Feature Map尋找最優輸入

例如一個1000分類網路，我想看看對於已經訓練好的模型，我希望輸出是[0,0,...,1,...0]，什麼樣的圖片會最適合這個輸出？

思路是feed一張全0圖片，設定為可訓練的變數（我按照自己對tensorflow的理解自行解釋的233），而其他引數均不可訓練，然後設定一個如上圖的loss函式，去迭代優化它，比如下面(2,1)圖嘗試在整張圖片上畫滿鵝來提高分數（包括deep dreaming技術在內，我覺得大部分讓神經網路自己畫圖的東西結果都挺反人類的）：

不過仔細想想也不是很新奇，這個東西實際上和自編碼器是一個道理，都是提取特徵後使用特徵反推影像的技術，不過自編碼器目的是原始影像，這個更隨意一點，就是反推某個特徵值的視覺化表達。

下面是根據全層神經元反推的結果，這直觀的表達了隨著卷積網路的推演丟失了多少細節資訊：

附件1：視覺化理解卷積神經網路

原文地址

一、相關理論

本篇博文主要講解2014年ECCV上的一篇經典文獻：《Visualizing and Understanding Convolutional Networks》，可以說是CNN領域視覺化理解的開山之作，這篇文獻告訴我們CNN的每一層到底學習到了什麼特徵，然後作者通過視覺化進行調整網路，提高了精度。最近兩年深層的卷積神經網路，進展非常驚人，在計算機視覺方面，識別精度不斷的突破，CVPR上的關於CNN的文獻一大堆。然而很多學者都不明白，為什麼通過某種調參、改動網路結構等，精度會提高。可能某一天，我們搞CNN某個專案任務的時候，你調整了某個引數，結果精度飆升，但如果別人問你，為什麼這樣調參精度會飆升呢，你所設計的CNN到底學習到了什麼特徵？

這篇文獻的目的，就是要通過特徵視覺化，告訴我們如何通過視覺化的角度，檢視你的精度確實提高了，你設計CNN學習到的特徵確實比較牛逼。這篇文獻是經典必讀文獻，才發表了一年多，引用次數就已經達到了好幾百，學習這篇文獻，對於我們今後深入理解CNN，具有非常重要的意義。總之這篇文章，牛逼哄哄。

二、利用反摺積實現特徵視覺化

為了解釋卷積神經網路為什麼work，我們就需要解釋CNN的每一層學習到了什麼東西。為了理解網路中間的每一層，提取到特徵，paper通過反摺積的方法，進行視覺化。反摺積網路可以看成是卷積網路的逆過程。反摺積網路在文獻《Adaptive deconvolutional networks for mid and high level feature learning》中被提出，是用於無監督學習的。然而本文的反摺積過程並不具備學習的能力，僅僅是用於視覺化一個已經訓練好的卷積網路模型，沒有學習訓練的過程。

反摺積視覺化以各層得到的特徵圖作為輸入，進行反摺積，得到反摺積結果，用以驗證顯示各層提取到的特徵圖。舉個例子：假如你想要檢視Alexnet 的conv5提取到了什麼東西，我們就用conv5的特徵圖後面接一個反摺積網路，然後通過：反池化、反啟用、反摺積，這樣的一個過程，把本來一張13*13大小的特徵圖(conv5大小為13*13)，放大回去，最後得到一張與原始輸入圖片一樣大小的圖片(227*227)。

1、反池化過程

我們知道，池化是不可逆的過程，然而我們可以通過記錄池化過程中，最大啟用值得座標位置。然後在反池化的時候，只把池化過程中最大啟用值所在的位置座標的值啟用，其它的值置為0，當然這個過程只是一種近似，因為我們在池化的過程中，除了最大值所在的位置，其它的值也是不為0的。剛好最近幾天看到文獻：《Stacked What-Where Auto-encoders》，裡面有個反摺積示意圖畫的比較好，所有就截下圖，用這篇文獻的示意圖進行講解：

以上面的圖片為例，上面的圖片中左邊表示pooling過程，右邊表示unpooling過程。假設我們pooling塊的大小是3*3，採用max pooling後，我們可以得到一個輸出神經元其啟用值為9，pooling是一個下采樣的過程，本來是3*3大小，經過pooling後，就變成了1*1大小的圖片了。而upooling剛好與pooling過程相反，它是一個上取樣的過程，是pooling的一個反向運算，當我們由一個神經元要擴充套件到3*3個神經元的時候，我們需要藉助於pooling過程中，記錄下最大值所在的位置座標(0,1)，然後在unpooling過程的時候，就把(0,1)這個畫素點的位置填上去，其它的神經元啟用值全部為0。再來一個例子：

在max pooling的時候，我們不僅要得到最大值，同時還要記錄下最大值得座標（-1，-1），然後再unpooling的時候，就直接把(-1-1)這個點的值填上去，其它的啟用值全部為0。

2、反啟用

我們在Alexnet中，relu函式是用於保證每層輸出的啟用值都是正數，因此對於反向過程，我們同樣需要保證每層的特徵圖為正值，也就是說這個反啟用過程和啟用過程沒有什麼差別，都是直接採用relu函式。

3、反摺積

對於反摺積過程，採用卷積過程轉置後的濾波器(引數一樣，只不過把引數矩陣水平和垂直方向翻轉了一下)，這一點我現在也不是很明白，估計要採用數學的相關理論進行證明。

最後視覺化網路結構如下：

網路的整個過程，從右邊開始：輸入圖片-》卷積-》Relu-》最大池化-》得到結果特徵圖-》反池化-》Relu-》反摺積。到了這邊，可以說我們的演算法已經學習完畢了，其它部分是文獻要解釋理解CNN部分，可學可不學。

總的來說演算法主要有兩個關鍵點：1、反池化 2、反摺積，這兩個原始碼的實現方法，需要好好理解。

三、理解視覺化

特徵視覺化：一旦我們的網路訓練完畢了，我們就可以進行視覺化，檢視學習到了什麼東西。但是要怎麼看？怎麼理解，又是一回事了。我們利用上面的反摺積網路，對每一層的特徵圖進行檢視。

1、特徵視覺化結果：

總的來說，通過CNN學習後，我們學習到的特徵，是具有辨別性的特徵，比如要我們區分人臉和狗頭，那麼通過CNN學習後，背景部位的啟用度基本很少，我們通過視覺化就可以看到我們提取到的特徵忽視了背景，而是把關鍵的資訊給提取出來了。從layer 1、layer 2學習到的特徵基本上是顏色、邊緣等低層特徵；layer 3則開始稍微變得複雜，學習到的是紋理特徵，比如上面的一些網格紋理；layer 4學習到的則是比較有區別性的特徵，比如狗頭；layer 5學習到的則是完整的，具有辨別性關鍵特徵。

2、特徵學習的過程。作者給我們顯示了，在網路訓練過程中，每一層學習到的特徵是怎麼變化的，上面每一整張圖片是網路的某一層特徵圖，然後每一行有8個小圖片，分別表示網路epochs次數為：1、2、5、10、20、30、40、64的特徵圖：

結果：(1)仔細看每一層，在迭代的過程中的變化，出現了sudden jumps;(2)從層與層之間做比較，我們可以看到，低層在訓練的過程中基本沒啥變化，比較容易收斂，高層的特徵學習則變化很大。這解釋了低層網路的從訓練開始，基本上沒有太大的變化，因為梯度彌散嘛。(3)從高層網路conv5的變化過程，我們可以看到，剛開始幾次的迭代，基本變化不是很大，但是到了40~50的迭代的時候，變化很大，因此我們以後在訓練網路的時候，不要著急看結果，看結果需要保證網路收斂。

3、影像變換。從文獻中的圖片5視覺化結果，我們可以看到對於一張經過縮放、平移等操作的圖片來說：對網路的第一層影響比較大，到了後面幾層，基本上這些變換提取到的特徵沒什麼比較大的變化。

個人總結：我個人感覺學習這篇文獻的演算法，不在於視覺化，而在於學習反摺積網路，如果懂得了反摺積網路，那麼在以後的文獻中，你會經常遇到這個演算法。大部分CNN結構中，如果網路的輸出是一整張圖片的話，那麼就需要使用到反摺積網路，比如圖片語義分割、圖片去模糊、視覺化、圖片無監督學習、圖片深度估計，像這種網路的輸出是一整張圖片的任務，很多都有相關的文獻，而且都是利用了反摺積網路，取得了牛逼哄哄的結果。所以我覺得我學習這篇文獻，更大的意義在於學習反摺積網路。

參考文獻：

1、《Visualizing and Understanding Convolutional Networks》

2、《Adaptive deconvolutional networks for mid and high level feature learning》

3、《Stacked What-Where Auto-encoders》