神經網路的啟用函式總結

1833619571093157發表於2018-07-30

導言

啟用函式在神經網路中具有重要的地位。在SIGAI之前的公眾號文章“理解神經網路的啟用函式”中，我們回答了3個關鍵的問題：

為什麼需要啟用函式？

什麼樣的函式能用作啟用函式？

什麼樣的函式是好的啟用函式？

這篇文章從理論的角度介紹了啟用函式的作用。承接上篇，在今天這篇文章中，SIGAI將為大家介紹當前深度學習中常用的一些啟用函式，包括它們的工程實現。我們將以Caffe為例。

啟用函式實現的是一對一的變換，即用相同的函式對輸入向量的每個分量進行對映，得到輸出向量，輸入和輸出向量的維數相同：

其中x和y都是n維向量。寫成分量的形式為：

在工程實現時，如果將啟用函式作為一個單獨的層，則在正向傳播時對輸入向量的每個分量計算啟用函式值f(x)。在反向傳播時對輸入資料計算導數值f’(x)，然後乘以後一層送入的誤差項，得到本層的誤差項，送人前一層中：

如果你對反向傳播演算法的原理還不清楚，請閱讀SIGAI之前的公眾號文章“反向傳播演算法推導-全連線神經網路”。這裡的乘法是向量逐元素對應相乘。由於啟用函式沒有需要學習訓練得到的引數，因此無需根據誤差項計算本層引數的導數值。

在神經網路的早期階段，sigmoid函式，tanh被廣為使用。在AlexNet出現之後，ReLU函式逐漸取代了這兩個函式，得到了廣泛使用，因為ReLU函式更不容易產生梯度消失問題。如果你對梯度消失問題，啟用函式的飽和性還不清楚，請閱讀我們之前的公眾號文章“理解神經網路的啟用函式”。

由於當前被提出的啟用函式眾多，為了便於大家理解與記憶，我們對此做了總結。各種常用的啟用函式與它們的導數如下表所示：

根據這些函式的定義，我們很容易計算出它們的導數。

下面我們以Caffe為例，介紹這些啟用函式的具體實現細節。在Caffe中，啟用函式是一個單獨的層，把它和全連線層，卷據層拆開的好處是更為靈活，便於程式碼複用和組合。因為無論是全連線層，還是卷據層，它們啟用函式的實現是相同的，因此可以用一套程式碼來完成。

啟用函式由神經元層完成，它們的基類是NeuronLayer，所有的啟用函式層均從它派生得到，下面分別進行介紹，限於篇幅，我們只介紹一部分，其他的原理類似。此外，Dropout機制也由神經元層實現。

SigmoidLayer類實現了標準sigmoid啟用函式。正向傳播函式對每個輸入資料計算sigmoid函式值，在這裡count是輸入資料的維數。實現程式碼如下：

TanHLayer類實現了tanh啟用函式。正向傳播函式實現程式碼如下：

類ReLULayer實現ReLU啟用函式，和前面介紹的標準ReLU不同，這裡做了改進，定義為：

其中a是人工設定的大於0的引數。顯然該函式的導數為：

下面來看正向傳播函式的程式碼：

反向傳播函式的實現如下：

這樣可以通過函式值得到導數值，減少計算量。正向傳播函式的實現如下：

類PReLULayer實現了PReLU啟用函式。正向傳播函式的實現如下：

反向傳播函式的實現如下：

類DropoutLayer實現Dropout機制。在訓練階段，隨機丟掉一部分神經元，用剩下的節點進行前向和後向傳播。這裡實現時通過二項分佈隨機數來控制神經元是否啟用，如果隨機數取值為1則啟用，否則不啟用。正向傳播函式的實現如下：