林軒田機器學習技法課程學習筆記12

上節課我們主要介紹了Gradient Boosted Decision Tree。GBDT通過使用functional gradient的方法得到一棵一棵不同的樹，然後再使用steepest descent的方式給予每棵樹不同的權重，最後可以用來處理任何而定error measure。上節課介紹的GBDT是以regression為例進行介紹的，使用的是squared error measure。本節課講介紹一種出現時間較早，但當下又非常火的一種機器演算法模型，就是神經網路（Neural Network）。

1. Motivation

在之前的機器學習基石課程中，我們就接觸過Perceptron模型了，例如PLA演算法。Perceptron就是在矩 $g_t(x)$ 外面加上一個sign函式，取值為{-1,+1}。現在，如果把許多perceptrons線性組合起來，得到的模型G就如下圖所示：

將左邊的輸入 $(x_0,x_1,x_2,\cdots,x_d)$ 與T個不同的權重 $(w_1,w_2,\cdots,w_T)$ 相乘（每個 $w_i$ 是d+1維的），得到T個不同的perceptrons為 $(g_1,g_2,\cdots,g_T)$ 。最後，每個 $g_t$ 給予不同的權重 $(\alpha_1,\alpha_2,\cdots,\alpha_T)$ ，線性組合得到G。G也是一個perceptron模型。

從結構上來說，上面這個模型包含了兩層的權重，分別是 $w_t$ 和 $\alpha$ 。同時也包含了兩層的sign函式，分別是 $g_t$ 和G。那麼這樣一個由許多感知機linear aggregation的模型能實現什麼樣的boundary呢？

舉個簡單的例子，如下圖所示， $g_1$ 和 $g_2$ 分別是平面上兩個perceptrons。其中，紅色表示-1，藍色表示+1。這兩個perceptrons線性組合可能得到下圖右側的模型，這表示的是 $g_1$ 和 $g_2$ 進行與（AND）的操作，藍色區域表示+1。

如何通過感知機模型來實現上述的 $AND(g_1,g_2)$ 邏輯操作呢？一種方法是令第二層中的 $\alpha_0=-1,\alpha_1=+1,\alpha_2=+1$ 。這樣，G(x)就可表示為：

$G(x)=sign(-1+g_1(x)+g_2(x))$

$g_1$ 和 $g_2$ 的取值是{-1,+1}，當 $g_1=-1，g_2=-1$ 時，G(x)=0；當 $g_1=-1，g_2=+1$ 時，G(x)=0；當 $g_1=+1，g_2=-1$ 時，G(x)=0；當 $g_1=+1，g_2=+1$ 時，G(x)=1。感知機模型如下所示：

這個例子說明了一些簡單的線性邊界，如上面的 $g_1$ 和 $g_2$ ，在經過一層感知機模型，經線性組合後，可以得到一些非線性的複雜邊界（AND運算）G(x)。

除此之外，或（OR）運算和非（NOT）運算都可以由感知機建立相應的模型，非常簡單。

所以說，linear aggregation of perceptrons實際上是非常powerful的模型同時也是非常complicated模型。再看下面一個例子，如果二維平面上有個圓形區域，圓內表示+1，圓外表示-1。這樣複雜的圓形邊界是沒有辦法使用單一perceptron來解決的。如果使用8個perceptrons，用剛才的方法線性組合起來，能夠得到一個很接近圓形的邊界（八邊形）。如果使用16個perceptrons，那麼得到的邊界更接近圓形（十六邊形）。因此，使用的perceptrons越多，就能得到各種任意的convex set，即凸多邊形邊界。之前我們在機器學習基石中介紹過，convex set的VC Dimension趨向於無窮大（ $2^N$ ）。這表示只要perceptrons夠多，我們能得到任意可能的情況，可能的模型。但是，這樣的壞處是模型複雜度可能會變得很大，從而造成過擬合（overfitting）。

總的來說，足夠數目的perceptrons線性組合能夠得到比較平滑的邊界和穩定的模型，這也是aggregation的特點之一。

但是，也有單層perceptrons線性組合做不到的事情。例如剛才我們將的AND、OR、NOT三種邏輯運算都可以由單層perceptrons做到，而如果是異或（XOR）操作，就沒有辦法只用單層perceptrons實現。這是因為XOR得到的是非線性可分的區域，如下圖所示，沒有辦法由 $g_1$ 和 $g_2$ 線性組合實現。所以說linear aggregation of perceptrons模型的複雜度還是有限制的。

那麼，為了實現XOR操作，可以使用多層perceptrons，也就是說一次transform不行，我們就用多層的transform，這其實就是Basic Neural Network的基本原型。下面我們就嘗試使用兩層perceptrons來實現XOR的操作。

首先，根據布林運算，異或XOR操作可以拆分成：

$XOR(g_1,g_2)=OR(AND(-g_1,g_2),AND(g_1,-g_2))$

這種拆分實際上就包含了兩層transform。第一層僅有AND操作，第二層是OR操作。這種兩層的感知機模型如下所示：

這樣，從AND操作到XOR操作，從簡單的aggregation of perceptrons到multi-layer perceptrons，感知機層數在增加，模型的複雜度也在增加，使最後得到的G能更容易解決一些非線性的複雜問題。這就是基本神經網路的基本模型。

順便提一下，這裡所說的感知機模型實際上就是在模仿人類的神經元模型（這就是Neural Network名稱的由來）。感知機模型每個節點的輸入就對應神經元的樹突dendrite，感知機每個節點的輸出就對應神經元的軸突axon。

2. Neural Network Hypothesis

上一部分我們介紹的這種感知機模型其實就是Neural Network。輸入部分經過一層一層的運算，相當於一層一層的transform，最後通過最後一層的權重，得到一個分數score。即在OUTPUT層，輸出的就是一個線性模型。得到s後，下一步再進行處理。

我們之前已經介紹過三種線性模型：linear classification，linear regression，logistic regression。那麼，對於OUTPUT層的分數s，根據具體問題，可以選擇最合適的線性模型。如果是binary classification問題，可以選擇linear classification模型；如果是linear regression問題，可以選擇linear regression模型；如果是soft classification問題，則可以選擇logistic regression模型。本節課接下來將以linear regression為例，選擇squared error來進行衡量。

上面講的是OUTPUT層，對於中間層，每個節點對應一個perceptron，都有一個transform運算。上文我們已經介紹過的transformation function是階梯函式sign()。那除了sign()函式外，有沒有其他的transformation function呢？

如果每個節點的transformation function都是線性運算（跟OUTPUT端一樣），那麼由每個節點的線性模型組合成的神經網路模型也必然是線性的。這跟直接使用一個線性模型在效果上並沒有什麼差異，模型能力不強，反而花費了更多不必要的力氣。所以一般來說，中間節點不會選擇線性模型。

如果每個節點的transformation function都是階梯函式（即sign()函式）。這是一個非線性模型，但是由於階梯函式是離散的，並不是處處可導，所以在優化計算時比較難處理。所以，一般也不選擇階梯函式作為transformation function。

既然線性函式和階梯函式都不太適合作為transformation function，那麼最常用的一種transformation function就是tanh(s)，其表示式如下：

$tanh(s)=\frac{exp(s)-exp(-s)}{exp(s)+exp(-s)}$

tanh(s)函式是一個平滑函式，類似“s”型。當|s|比較大的時候，tanh(s)與階梯函式相近；當|s|比較小的時候，tanh(s)與線性函式比較接近。從數學上來說，由於處處連續可導，便於最優化計算。而且形狀上類似階梯函式，具有非線性的性質，可以得到比較複雜強大的模型。

順便提一下，tanh(x)函式與sigmoid函式存在下列關係：

$tanh(s)=2\theta(2s)-1$

其中，

$\theta(s)=\frac{1}{1+exp(-s)}$

那麼，接下來我們就使用tanh函式作為神經網路中間層的transformation function，所有的數學推導也基於此。實際應用中，可以選擇其它的transformation function，不同的transformation function，則有不同的推導過程。

下面我們將仔細來看看Neural Network Hypothesis的結構。如下圖所示，該神經網路左邊是輸入層，中間兩層是隱藏層，右邊是輸出層。整體上來說，我們設定輸入層為第0層，然後往右分別是第一層、第二層，輸出層即為第3層。

Neural Network Hypothesis中， $d^{(0)},d^{(1)},\cdots,d^{(L)}$ 分別表示神經網路的第幾層，其中L為總層數。例如上圖所示的是3層神經網路，L=3。我們先來看看每一層的權重 $w_{ij}^{(l)}$ ，上標l滿足 $1\leq l\leq L$ ，表示是位於哪一層。下標i滿足 $0\leq i\leq d^{(l-1)}$ ，表示前一層輸出的個數加上bias項（常數項）。下標j滿足 $1\leq j\leq d^{(l)}$ ，表示該層節點的個數（不包括bias項）。

對於每層的分數score，它的表示式為：

$s_j^{(l)}=\sum_{i=0}^{d^{(l-1)}}w_{ij}^{(l)}x_i^{(l-1)}$

對於每層的transformation function，它的表示式為：

因為是regression模型，所以在輸出層（l=L）直接得到 $x_j^{(l)}=s_j^{(l)}$ 。

介紹完Neural Network Hypothesis的結構之後，我們來研究下這種演算法結構到底有什麼實際的物理意義。還是看上面的神經網路結構圖，每一層輸入到輸出的運算過程，實際上都是一種transformation，而轉換的關鍵在於每個權重值 $w_{ij}^{(l)}$ 。每層網路利用輸入x和權重w的乘積，在經過tanh函式，得到該層的輸出，從左到右，一層一層地進行。其中，很明顯，x和w的乘積 $\sum_{i=0}^{d^{(l-1)}}w_{ij}^{(l)}x_i^{(l-1)}$ 越大，那麼tanh(wx)就會越接近1，表明這種transformation效果越好。再想一下，w和x是兩個向量，乘積越大，表明兩個向量內積越大，越接近平行，則表明w和x有模式上的相似性。從而，更進一步說明了如果每一層的輸入向量x和權重向量w具有模式上的相似性，比較接近平行，那麼transformation的效果就比較好，就能得到表現良好的神經網路模型。也就是說，神經網路訓練的核心就是pattern extraction，即從資料中找到資料本身蘊含的模式和規律。通過一層一層找到這些模式，找到與輸入向量x最契合的權重向量w，最後再由G輸出結果。

3. Neural Network Learning

我們已經介紹了Neural Network Hypothesis的結構和演算法流程。確定網路結構其實就是確定各層的權重值 $w_{ij}^{(l)}$ 。那如何根據已有的樣本資料，找到最佳的權重 $w_{ij}^{(l)}$ 使error最小化呢？下面我們將詳細推導。

首先，我們的目標是找到最佳的 $w_{ij}^{(l)}$ 讓 $E_{in}({w_{ij}^{(l)}})$ 最小化。如果只有一層隱藏層，就相當於是aggregation of perceptrons。可以使用我們上節課介紹的gradient boosting演算法來一個一個確定隱藏層每個神經元的權重，輸入層到隱藏層的權重可以通過C&RT演算法計算的到。這不是神經網路常用的演算法。如果隱藏層個數有兩個或者更多，那麼aggregation of perceptrons的方法就行不通了。就要考慮使用其它方法。

根據error function的思想，從輸出層來看，我們可以得到每個樣本神經網路預測值與實際值之間的squared error： $e_n=(y_n-NNet(x_n))^2$ ，這是單個樣本點的error。那麼，我們只要能建立 $e_n$ 與每個權重 $w_{ij}^{(l)}$ 的函式關係，就可以利用GD或SGD演算法對 $w_{ij}^{(l)}$ 求偏微分，不斷迭代優化 $w_{ij}^{(l)}$ 值，最終得到使 $e_n$ 最小時對應的 $w_{ij}^{(l)}$ 。

為了建立 $e_n$ 與各層權重 $w_{ij}^{(l)}$ 的函式關係，求出 $e_n$ 對 $w_{ij}^{(l)}$ 的偏導數 $\frac{\partial e_n}{w_{ij}^{(l)}}$ ，我們先來看輸出層如何計算 $\frac{\partial e_n}{w_{i1}^{(L)}}$ 。 $e_n$ 與 $w_{i1}^{(L)}$ 的函式關係為：

計算 $e_n$ 對 $w_{i1}^{(L)}$ 的偏導數，得到：

以上是輸出層求偏導的結果。如果是其它層，即 $l\neq L$ ，偏導計算可以寫成如下形式：

上述推導中，令 $e_n$ 與第l層第j個神經元的分數 $s_j^{(l)}$ 的偏導數記為 $\delta_j^{(l)}$ 。即：

$\frac{\partial e_n}{\partial s_j^{(l)}}=\delta_j^{(l)}$

當 $l=L$ 時， $\delta_1^{(L)}=-2(y_n-s_1^{(L)})$ ；當 $l\neq L$ 時， $\delta_j^{(l)}$ 是未知的，下面我們將進行運算推導，看看不同層之間的 $\delta_j^{(l)}$ 是否有遞推關係。

如上圖所示，第l層第j個神經元的分數 $s_j^{(l)}$ 經過tanh函式，得到該層輸出 $x_j^{(l)}$ ，再與下一層權重 $w_{jk}^{(l+1)}$ 相乘，得到第l+1層的分數 $s_j^{(l+1)}$ ，直到最後的輸出層 $e_n$ 。

那麼，利用上面 $s_j^{(l)}$ 到 $s_j^{(l+1)}$ 這樣的遞推關係，我們可以對偏導數 $\delta_j^{(l)}$ 做一些中間變數替換處理，得到如下表示式：

值得一提的是，上式中有個求和項，其中k表示下一層即l+1層神經元的個數。表明l層的 $s_j^{(l)}$ 與l+1層的所有 $s_k^{(l+1)}$ 都有關係。因為 $s_j^{(l)}$ 參與到每個 $s_k^{(l+1)}$ 的運算中了。

這樣，我們得到了 $\delta_j^{(l)}$ 與 $\delta_k^{(l)}$ 的遞推關係。也就是說如果知道了 $\delta_k^{(l)}$ 的值，就能推匯出 $\delta_j^{(l)}$ 的值。而最後一層，即輸出層的 $\delta_1^{(L)}=-2(y_n-s_1^{(L)})$ ，那麼就能一層一層往前推導，得到每一層的 $\delta_j^{(l)}$ ，從而可以計算出 $e_n$ 對各個 $w_{ij}^{(l)}$ 的偏導數 $\frac{\partial e_n}{w_{ij}^{(l)}}$ 。計算完偏微分之後，就可以使用GD或SGD演算法進行權重的迭代優化，最終得到最優解。

神經網路中，這種從後往前的推導方法稱為Backpropagation Algorithm，即我們常常聽到的BP神經網路演算法。它的演算法流程如下所示：

上面採用的是SGD的方法，即每次迭代更新時只取一個點，這種做法一般不夠穩定。所以通常會採用mini-batch的方法，即每次選取一些資料，例如 $\frac{N}{10}$ ，來進行訓練，最後求平均值更新權重w。這種做法的實際效果會比較好一些。

4. Optimization and Regularization

經過以上的分析和推導，我們知道神經網路優化的目標就是讓 $E_{in}(w)$ 最小化。本節課我們採用error measure是squared error，當然也可以採用其它的錯誤衡量方式，只要在推導上做稍稍修改就可以了，此處不再贅述。

下面我們將主要分析神經網路的優化問題。由於神經網路由輸入層、多個隱藏層、輸出層構成，結構是比較複雜的非線性模型，因此 $E_{in}(w)$ 可能有許多區域性最小值，是non-convex的，找到全域性最小值（globalminimum）就會困難許多。而我們使用GD或SGD演算法得到的很可能就是區域性最小值（local minimum）。

基於這個問題，不同的初始值權重 $w_{ij}^{(l)}$ 通常會得到不同的local minimum。也就是說最終的輸出G與初始權重 $w_{ij}^{(l)}$ 有很大的關係。在選取 $w_{ij}^{(l)}$ 上有個技巧，就是通常選擇比較小的值，而且最好是隨機random選擇。這是因為，如果權重 $w_{ij}^{(l)}$ 很大，那麼根據tanh函式，得到的值會分佈在兩側比較平緩的位置（類似於飽和saturation），這時候梯度很小，每次迭代權重可能只有微弱的變化，很難在全域性上快速得到最優解。而隨機選擇的原因是通常對權重 $w_{ij}^{(l)}$ 如何選擇沒有先驗經驗，只能通過random，從普遍概率上選擇初始值，隨機性避免了人為因素的干預，可以說更有可能經過迭代優化得到全域性最優解。

下面從理論上看一下神經網路模型的VC Dimension。對於tanh這樣的transfer function，其對應的整個模型的複雜度 $d_{vc}=O(VD)$ 。其中V是神經網路中神經元的個數（不包括bias點）,D表示所有權值的數量。所以，如果V足夠大的時候，VC Dimension也會非常大，這樣神經網路可以訓練出非常複雜的模型。但同時也可能會造成過擬合overfitting。所以，神經網路中神經元的數量V不能太大。

為了防止神經網路過擬合，一個常用的方法就是使用regularization。之前我們就介紹過可以在error function中加入一個regularizer，例如熟悉的L2 regularizer $\Omega(w)$ ：

$\Omega(w)=\sum(w_{ij}^{(l)})^2$

但是，使用L2 regularizer 有一個缺點，就是它使每個權重進行等比例縮小（shrink）。也就是說大的權重縮小程度較大，小的權重縮小程度較小。這會帶來一個問題，就是等比例縮小很難得到值為零的權重。而我們恰恰希望某些權重 $w_{ij}^{(l)}=0$ ，即權重的解是鬆散（sparse）的。因為這樣能有效減少VC Dimension，從而減小模型複雜度，防止過擬合發生。

那麼為了得到sparse解，有什麼方法呢？我們之前就介紹過可以使用L1 regularizer： $\sum|w{ij}^{(l)}|$ ，但是這種做法存在一個缺點，就是包含絕對值不容易微分。除此之外，另外一種比較常用的方法就是使用weight-elimination regularizer。weight-elimination regularizer類似於L2 regularizer，只不過是在L2 regularizer上做了尺度的縮小，這樣能使large weight和small weight都能得到同等程度的縮小，從而讓更多權重最終為零。weight-elimination regularizer的表示式如下：

$\sum\frac{(w_{ij}^{(l)})^2}{1+(w_{ij}^{(l)})^2}$

除了weight-elimination regularizer之外，還有另外一個很有效的regularization的方法，就是Early Stopping。簡而言之，就是神經網路訓練的次數t不能太多。因為，t太大的時候，相當於給模型尋找最優值更多的可能性，模型更復雜，VC Dimension增大，可能會overfitting。而t不太大時，能有效減少VC Dimension，降低模型複雜度，從而起到regularization的效果。 $E_{in}$ 和 $E_{test}$ 隨訓練次數t的關係如下圖右下角所示：

那麼，如何選擇最佳的訓練次數t呢？可以使用validation進行驗證選擇。

5. 總結

本節課主要介紹了Neural Network模型。首先，我們通過使用一層甚至多層的perceptrons來獲得更復雜的非線性模型。神經網路的每個神經元都相當於一個Neural Network Hypothesis，訓練的本質就是在每一層網路上進行pattern extraction，找到最合適的權重 $w_{ij}^{(l)}$ ，最終得到最佳的G。本課程以regression模型為例，最終的G是線性模型，而中間各層均採用tanh函式作為transform function。計算權重 $w_{ij}^{(l)}$ 的方法就是採用GD或者SGD，通過Backpropagation演算法，不斷更新優化權重值，最終使得 $E_{in}(w)$ 最小化，即完成了整個神經網路的訓練過程。最後，我們提到了神經網路的可以使用一些regularization來防止模型過擬合。這些方法包括隨機選擇較小的權重初始值，使用weight-elimination regularizer或者early stopping等。

註明：

文章中所有的圖片均來自臺灣大學林軒田《機器學習技法》課程

更多AI資源請關注公眾號：AI有道（ID：redstonewill）

林軒田機器學習技法課程學習筆記12 — Neural Network

1. Motivation

2. Neural Network Hypothesis

3. Neural Network Learning

4. Optimization and Regularization

5. 總結

相關文章