《AI先鋒週刊》是—家關注人工智慧學術研究、產業生態鏈、技術落地、邊緣應用等維度的先鋒電子新媒體。歡迎廣大熱愛AI的同道中人閱讀、評論、轉發、投稿,記得點選“關注”,隨時獲取全球AI最新訊息。選自towardsdatascience 作者:Piotr Skalski 機器之心編譯 參與:Nurhachu Null、張倩計算機視覺技術在日常生活中有著非常普遍的應用:發朋友圈之前自動修圖、網上購物時刷臉支付……在這一系列成功的應用背後,卷積神經網路功不可沒。本文將介紹卷積神經網路背後的數學原理。
在自動駕駛、醫療以及零售這些領域,計算機視覺讓我們完成了一些直到最近都被認為是不可能的事情。今天,自動駕駛汽車和無人商店聽起來不再那麼夢幻。事實上,我們每天都在使用計算機視覺技術——我們用自己的面孔解鎖手機,將圖片上傳到社交網路之前進行自動修圖……卷積神經網路可能是這一巨大成功背後的關鍵組成模組。這次,我們將要使用卷積神經網路的思想來拓寬我們對神經網路工作原理的理解。打個預防針,本文包含相當複雜的數學方程,但是,你也不必為自己不喜歡線性代數和微積分而沮喪。我的目標並不是讓你記住這些公式,而是為你提供一些關於底層原理的直覺認知。
簡介
過去我們接觸到了密集連線的神經網路。那些神經網路中,所有的神經元被分成了若干組,形成了連續的層。每個這樣的單元都與相鄰層的每一個單獨的神經元相連線。下圖所示的是這樣一個架構。
圖 1:密集連線的神經網路架構當我們基於一個有限的固定特徵集合解決分類問題的時候,這種方法是很奏效的——例如,我們根據足球運動員在比賽中記錄的統計資料來預測他的位置。但是,當處理照片的時候,問題變得更加複雜。當然,我們可以把每個畫素的亮度視作一個單獨的特徵,然後將它作為密集網路的輸入傳遞進去。不幸的是,為了讓它能夠應付一張典型的智慧手機照片,我們的網路必須包含數千萬甚至上億的神經元。另一方面,雖然我們可以將照片縮小,但是我們也會在這個過程中損失有價值的資訊。所以我們馬上就會發現,傳統的策略是沒有用的——我們需要一種新的聰明的方法,來儘可能多的利用資料,但同時還要減少必需的計算量和引數。這就是 CNN 發揮作用的時候了。
數字照片的資料結構
讓我們先花少許時間解釋一下數字影象的儲存方式。大多數人可能意識到了,影象實際上就是巨大的數字矩陣。每個數字代表的是一個單獨畫素的亮度。在 RGB 模型中,彩色圖片是由 3 個這樣的矩陣組成的,每個矩陣對應著 3 個顏色通道(紅、綠、藍)中的一個。在黑白影象中,我們僅使用一個矩陣。每個矩陣都儲存著 0 到 255 的數值。這個數值範圍是影象儲存資訊的效率(256 個數值剛好對應一個位元組)和人眼敏感度之間的折中(我們僅能區分同種顏色的幾種有限色度)
圖 2. 數字影象的資料結構
卷積
核卷積並不僅僅用在卷積神經經網路中,它也是很多其他計算機視覺演算法的關鍵元素。這個過程是這樣的:我們有一個小的數字矩陣(稱作卷積核或濾波器),我們將它傳遞到我們的影象上,然後基於濾波器的數值進行變換。後續的特徵圖的值要通過下面的公式計算,其中輸入影象被記作 f,我們的卷積核為 h。計算結果的行列索引分別記為 m 和 n。
圖 3. 核卷積的例子在將我們的濾波器放在選中的畫素上之後,我們將卷積核中的每一個數值和影象中對應的數值成對相乘。最後將乘積的結果相加,然後把結果放在輸出特徵圖的正確位置上。我們在上邊的動畫中可以以一個微觀的形式看到這個運算的過程,但是更有趣的是我們在整幅影象上執行這個運算得到的結果。圖 4 展示了用數個濾波器做卷積的結果。
圖 4. 用卷積核尋找邊緣Valid 和 Same 的卷積
如圖 3 所示,當我們在用 3x3 的卷積核在 6x6 的影象上執行卷積時,我們得到了 4x4 的特徵圖。這是因為在我們的影象裡面,只有 16 個獨特的位置來放置卷積核。由於我們的影象的尺寸在每次卷積的時候都會收縮,在影象完全消失之前,我們只能做有限次的卷積。此外,如果我們注意一下卷積核是如何在影象上移動的,我們會發現,邊緣的畫素會比中央的畫素影響更小。這樣的話我們會損失圖片中包含的一些資訊,你可以在下圖看到,畫素的位置是如何改變它對特徵圖的影響的。
圖 5. 畫素位置的影響為了解決這兩個問題,我們可以使用一個額外的邊界來填充影象。例如,如果我們使用 1 畫素的填充,我們將影象的尺寸增大到了 8x8,這樣,3x3 的濾波器的輸出將會成為 6x6。通常在實際中我們用 0 來做額外的填充。根據我們是否使用填充,我們會進行兩種型別的卷積——Valid 和 Same。命名相當令人費解,所以在這裡解釋一下:valid 代表我們使用的是原始影象,same 代表我們在影象周圍使用了邊界,因此輸入和輸出的影象大小相同。在第二種情況下,擴充的寬度應該滿足下面的方程,其中 p 是 padding(填充),f 是濾波器的維度(通常是奇數)。
跨步卷積 圖 6. 跨步卷積的例子在之前的例子中,我們總是將卷積核移動一個畫素。但是,步長也可以看做是卷積層的一個引數。在圖 6 中,我們可以看到,如果我們使用更大的步長,卷積會成為什麼樣子。在設計 CNN 結構時,如果我們想讓接受域有更少的重疊或者想讓特徵圖有更小的空間維度,那麼我們可以決定增大步長。考慮到擴充和跨步,輸出矩陣的維度可以使用下面的公式計算:
轉換到第三個維度立體卷積是一個非常重要的概念,它不僅讓我們能夠處理彩色影象,而且更重要的是,可以在一個單獨的層上使用多個濾波器。最重要的規則是,濾波器和你想在其上應用濾波器的影象必須擁有相同的通道數。基本上,我們繼續使用和圖 3 類似的示例,儘管我們這次從第三個維度讓矩陣中的數值對相乘。如果我們想在同一張影象上應用多個濾波器,我們會為每個濾波器獨立地計算卷積,然後將計算結果逐個堆疊,最後將他們組合成一個整體。得到的張量(3D 矩陣可以被稱作張量)滿足下面的方程,其中: n 是影象的大小,f 是濾波器的大小,n_c 是影象中的通道數,p 是所用的填充,s 是所用的步長,n_f 是濾波器的數量。
圖 7. 立體卷積卷積層
使用我們今天所學內容構造一個卷積層的時間到了。我們的方法幾乎與用在密集連線神經網路上的方法相同,唯一的差別就是不使用簡單的矩陣相乘,這一次我們將會使用卷積。前向傳播包含兩個步驟。第一步是計算中間結果 Z,它是由前一層的輸入資料與張量 W(包含濾波器)的卷積結果,加上偏置項 b 得到的。第二步是給我們的中間結果應用一個非線性的啟用函式(我們的啟用函式記作 g)。矩陣方程的愛好者將在下面找到合適的數學公式。在下面的插圖中,你可以看見一個小型的視覺化,它描述了我們方程中用到的張量的維度。
圖 8. 張量維度連線剪下和引數共享
在本文開始,由於需要學習的引數數量巨大,我提到密集連線神經網路在處理影象方面是很弱的。既然我們已經瞭解了關於卷積的所有內容,讓我們來考慮一下它是如何優化計算的吧。在下圖中,2D 卷積以一種稍微不同的方式進行了視覺化——用數字 1-9 標記的神經元組成接收後續畫素亮度的輸入層,A-D 這 4 個單元代表的是計算得到的特徵圖元素。最後但同等重要的是,I-IV 是卷積核中的數值——它們必須被學習到。
圖 9. 連線剪下和引數共享現在,讓我們聚焦於卷積層的兩個重要屬性。第一,你可以看到,連續兩層中,並不是所有的神經元都是彼此相連的。例如,單元 1 僅僅會影響到 A 的值。第二,我們發現,一些神經元會共享相同的權重。這兩個屬性都意味著我們要學習的引數數量要少很多。順便說一下,值得注意的是,濾波器中的每個值都會影響到特徵圖中的每個元素——這在反向傳播中是特別重要的。
卷積層反向傳播
任何一個曾經試圖從零編寫自己的神經網路的人都知道,前向傳播遠遠不到成功的一半。真正有趣的是當你開始反向傳播的時候。現在,我們不必在反向傳播上花心思——深度學習框架都為我們做好了,但是我認為,瞭解背後發生的東西是很值得的。就像在密集連線神經網路中一樣,我們的目標是在一個叫做梯度下降的過程中計算導數,然後使用它們來更新引數值。
在計算中我們會使用鏈式法則——這個我在之前的文章中提到過。我們想要評估引數的變化對結果特徵圖的影響,然後評估它對最終結果的影響。在開始進入細節之前,讓我們來統一一下將會用到的數學符號——為了讓事情變得容易一些,我會放棄偏導數的完整符號,而會使用下面的簡寫符號。但是請記住,這個符號始終代表代價函式的偏導數。
圖 10. 一個卷積層在前向和反向傳播中的輸入和輸出資料我們的任務是計算 dW[1] 和 db[2]——它們是與當前層的引數相關的導數,還要計算 dA[3],它們會被傳遞到之前的層。如圖 10 所示,我們以 dA[4] 為輸入。當然,這些對應張量的維度都是相同的,dW 和 W,db 和 b,以及 dA 和 A。第一步就是通過在我們的輸入張量上應用我們的啟用函式的導數,得到中間值 dZ[5]。根據鏈式法則,這個運算的結果在後面會被用到。
現在,我們需要處理卷積神經網路自身的反向傳播,為了達到這個目的,我們會使用一個叫做全卷積的矩陣運算——見下圖。請注意,我們在這裡使用的卷積核會提前旋轉 180°。這個運算可以通過下面的公式描述,其中的濾波器記作 W,dZ[m,n] 是一個標量,它屬於從前一層得到的偏導數。 圖 11. 全卷積池化層
除了卷積層,CNN 通常會用到所謂的池化層。它們最早被用來減小張量的大小以及加速運算。這些層是比較簡單的——我們需要將我們的影象分成不同的區域,然後在每一個部分上執行一些運算。例如,對 Max Pool 層而言,我們會選擇每個區域的最大值,並將它放到對應的輸出區域。與卷積層的情況一樣,我們有兩個可用的超引數——濾波器大小和步長。最後但同樣重要的一點是,如果你對一個多通道的影象執行池化操作,那麼每一個通道的池化應該單獨完成。
圖 12. 最大池化(max pooling)的例子池化層反向傳播
我們在這篇文章中只討論最大池化反向傳播,但是我們學到的規則是適用於所有型別的池化層的——只需要做微小的調整即可。因為在這種層中,我們沒有任何必須更新的引數,所以我們的任務就是合適地分配梯度。我們記得,在最大池化的前向傳播中,我們選擇的是每個區域的最大值,並將它傳遞到了下一層。所以在反向傳播中也是很清晰的,梯度不應該影響前向傳播中不包含的矩陣的元素。實際上,這是通過建立一個掩膜來完成的,這個掩膜記住了前一階段數值的位置,我們可以在後面轉移梯度的時候用到。
圖 13. 最大池化反向傳播原文連結:towardsdatascience.com/gentle-dive…