一文概覽深度學習中的啟用函式

路雪發表於2017-11-02
本文從啟用函式的背景知識開始介紹,重點講解了不同型別的非線性啟用函式:Sigmoid、Tanh、ReLU、LReLU、PReLU、Swish,並詳細介紹了這些函式的優缺點。

本文介紹了多種啟用函式,並且對比了啟用函式的優劣。本文假設你對人工神經網路(AAN)有基本瞭解,如果沒有,推薦先閱讀機器之心介紹過的相關文章:

1. 什麼是啟用函式?

生物神經網路啟發了人工神經網路的發展。但是,ANN 並非大腦運作的近似表示。不過在我們瞭解為什麼在人工神經網路中使用啟用函式之前,先了解生物神經網路與啟用函式的相關性是很有用處的。

典型神經元的物理結構包括細胞體(cell body)、向其他神經元傳送訊號的軸突(axon)和接收其他神經元傳送的訊號或資訊的樹突(dendrites)。

一文概覽深度學習中的啟用函式

生物神經網路

上圖中,紅色圓圈代表兩個神經元交流的區域。神經元透過樹突接收來自其他神經元的訊號。樹突的權重叫作突觸權值(synaptic weight),將和接收的訊號相乘。來自樹突的訊號在細胞體內不斷累積,如果訊號強度超過特定閾值,則神經元向軸突傳遞資訊。如未超過,則訊號被該神經元「殺死」,無法進一步傳播。

啟用函式決定是否傳遞訊號。在這種情況下,只需要帶有一個引數(閾值)的簡單階梯函式。現在,當我們學習了一些新的東西(或未學習到什麼)時,一些神經元的閾值和突觸權值會發生改變。這使得神經元之間產生新的連線,大腦學會新的東西。

讓我們再次理解這一概念,不過這次要使用人工神經元。

一文概覽深度學習中的啟用函式

上圖中(x_1, ..., x_n)是訊號向量,它和權重(w_1, ..., w_n)相乘。然後再累加(即求和 + 偏置項 b)。最後,啟用函式 f 應用於累加的總和。

注意:權重(w_1, ..., w_n)和偏置項 b 對輸入訊號進行線性變換。而啟用函式對該訊號進行非線性變換,這使得我們可以任意學習輸入和輸出之間的複雜變換。

過去已經出現了很多種函式,但是尋找使神經網路更好更快學習的啟用函式仍然是活躍的研究方向。

2. 神經網路如何學習?

我們有必要對神經網路如何學習有一個基本瞭解。假設網路的期望輸出是 y(標註值),但網路實際輸出的是 y'(預測值)。預測輸出和期望輸出之間的差距(y - y')可以轉化成一種度量,即損失函式(J)。神經網路犯大量錯誤時,損失很高;神經網路犯錯較少時,損失較低。訓練目標就是找到使訓練集上的損失函式最小化的權重矩陣和偏置向量。

在下圖中,損失函式的形狀像一個碗。在訓練過程的任一點上,損失函式關於梯度的偏導數是那個位置的梯度。沿偏導數預測的方向移動,就可以到達谷底,使損失函式最小化。使用函式的偏導數迭代地尋找區域性極小值的方法叫作梯度下降。

一文概覽深度學習中的啟用函式

人工神經網路中的權重使用反向傳播的方法進行更新。損失函式關於梯度的偏導數也用於更新權重。從某種意義上來說,神經網路中的誤差根據求導的鏈式法則執行反向傳播。這透過迭代的方式來實施,經過多次迭代後,損失函式達到極小值,其導數變為 0。

我們計劃在其他文章中介紹反向傳播。這裡主要指出的就是訓練過程中出現的求導步驟。

3. 啟用函式的型別

線性啟用函式:這是一種簡單的線性函式,公式為:f(x) = x。基本上,輸入到輸出過程中不經過修改。

一文概覽深度學習中的啟用函式

線性啟用函式

非線性啟用函式:用於分離非線性可分的資料,是最常用的啟用函式。非線性方程控制輸入到輸出的對映。非線性啟用函式有 Sigmoid、Tanh、ReLU、LReLU、PReLU、Swish 等。下文中將詳細介紹這些啟用函式。

一文概覽深度學習中的啟用函式

非線性啟用函式

4. 為什麼人工神經網路需要非線性啟用函式?

神經網路用於實現複雜的函式,非線性啟用函式可以使神經網路隨意逼近複雜函式。沒有啟用函式帶來的非線性,多層神經網路和單層無異。

現在我們來看一個簡單的例子,幫助我們瞭解為什麼沒有非線性,神經網路甚至無法逼近異或門(XOR gate)、同或門(XNOR gate)等簡單函式。下圖是一個異或門函式。叉和圈代表了資料集的兩個類別。當 x_1、x_2 兩個特徵一樣時,類別標籤是紅叉;不一樣,就是藍圈。兩個紅叉對於輸入值 (0,0) 和 (1,1) 都有輸出值 0,兩個藍圈對於輸入值 (0,1) 和 (1,0) 都有輸出值 1。

一文概覽深度學習中的啟用函式

異或門函式的圖示

從上圖中,我們可以看到資料點非線性可分。也就是說,我們無法畫出一條直線使藍圈和紅叉分開來。因此,我們需要一個非線性決策邊界(non-linear decision boundary)來分離它們。

啟用函式對於將神經網路的輸出壓縮排特定邊界內也非常關鍵。神經元一文概覽深度學習中的啟用函式的輸出值可以非常大。該輸出在未經修改的情況下饋送至下一層神經元時,可以被轉換成更大的值,這樣過程就需要極大算力。啟用函式的一個任務就是將神經元的輸出對映到有界的區域(如,0 到 1 之間)。

瞭解這些背景知識之後,我們就可以瞭解不同型別的啟用函式了。

5. 不同型別的非線性啟用函式

5.1 Sigmoid

Sigmoid又叫作 Logistic 啟用函式,它將實數值壓縮排 0 到 1 的區間內,還可以在預測機率的輸出層中使用。該函式將大的負數轉換成 0,將大的正數轉換成 1。數學公式為:

一文概覽深度學習中的啟用函式

下圖展示了 Sigmoid 函式及其導數:

一文概覽深度學習中的啟用函式

Sigmoid 啟用函式

一文概覽深度學習中的啟用函式

Sigmoid 導數

Sigmoid 函式的三個主要缺陷:

1. 梯度消失:注意:Sigmoid 函式趨近 0 和 1 的時候變化率會變得平坦,也就是說,Sigmoid 的梯度趨近於 0。神經網路使用 Sigmoid 啟用函式進行反向傳播時,輸出接近 0 或 1 的神經元其梯度趨近於 0。這些神經元叫作飽和神經元。因此,這些神經元的權重不會更新。此外,與此類神經元相連的神經元的權重也更新得很慢。該問題叫作梯度消失。因此,想象一下,如果一個大型神經網路包含 Sigmoid 神經元,而其中很多個都處於飽和狀態,那麼該網路無法執行反向傳播。

2. 不以零為中心:Sigmoid 輸出不以零為中心的。

3. 計算成本高昂:exp() 函式與其他非線性啟用函式相比,計算成本高昂。

下一個要討論的非線性啟用函式解決了 Sigmoid 函式中值域期望不為 0 的問題。

5.2 Tanh

一文概覽深度學習中的啟用函式

Tanh 啟用函式

一文概覽深度學習中的啟用函式

Tanh 導數

Tanh 啟用函式又叫作雙曲正切啟用函式(hyperbolic tangent activation function)。與 Sigmoid 函式類似,Tanh 函式也使用真值,但 Tanh 函式將其壓縮至-1 到 1 的區間內。與 Sigmoid 不同,Tanh 函式的輸出以零為中心,因為區間在-1 到 1 之間。你可以將 Tanh 函式想象成兩個 Sigmoid 函式放在一起。在實踐中,Tanh 函式的使用優先性高於 Sigmoid 函式。負數輸入被當作負值,零輸入值的對映接近零,正數輸入被當作正值。唯一的缺點是:

1. Tanh 函式也會有梯度消失的問題,因此在飽和時也會「殺死」梯度。

為了解決梯度消失問題,我們來討論另一個非線性啟用函式——修正線性單元(rectified linear unit,ReLU),該函式明顯優於前面兩個函式,是現在使用最廣泛的函式。

5.3 修正線性單元(ReLU)

一文概覽深度學習中的啟用函式

ReLU 啟用函式

一文概覽深度學習中的啟用函式

ReLU 導數

從上圖可以看到,ReLU 是從底部開始半修正的一種函式。數學公式為:

一文概覽深度學習中的啟用函式

當輸入 x<0 時,輸出為 0,當 x> 0 時,輸出為 x。該啟用函式使網路更快速地收斂。它不會飽和,即它可以對抗梯度消失問題,至少在正區域(x> 0 時)可以這樣,因此神經元至少在一半區域中不會把所有零進行反向傳播。由於使用了簡單的閾值化(thresholding),ReLU 計算效率很高。但是 ReLU 神經元也存在一些缺點:

1. 不以零為中心:和 Sigmoid 啟用函式類似,ReLU 函式的輸出不以零為中心。

2. 前向傳導(forward pass)過程中,如果 x < 0,則神經元保持非啟用狀態,且在後向傳導(backward pass)中「殺死」梯度。這樣權重無法得到更新,網路無法學習。當 x = 0 時,該點的梯度未定義,但是這個問題在實現中得到了解決,透過採用左側或右側的梯度的方式。

為了解決 ReLU 啟用函式中的梯度消失問題,當 x < 0 時,我們使用 Leaky ReLU——該函式試圖修復 dead ReLU 問題。下面我們就來詳細瞭解 Leaky ReLU。

5.4 Leaky ReLU

一文概覽深度學習中的啟用函式

Leaky ReLU 啟用函式

該函式試圖緩解 dead ReLU 問題。數學公式為:

一文概覽深度學習中的啟用函式

Leaky ReLU 的概念是:當 x < 0 時,它得到 0.1 的正梯度。該函式一定程度上緩解了 dead ReLU 問題,但是使用該函式的結果並不連貫。儘管它具備 ReLU 啟用函式的所有特徵,如計算高效、快速收斂、在正區域內不會飽和。

Leaky ReLU 可以得到更多擴充套件。不讓 x 乘常數項,而是讓 x 乘超引數,這看起來比 Leaky ReLU 效果要好。該擴充套件就是 Parametric ReLU。

5.5 Parametric ReLU

PReLU 函式的數學公式為:

一文概覽深度學習中的啟用函式

其中一文概覽深度學習中的啟用函式是超引數。這裡引入了一個隨機的超引數一文概覽深度學習中的啟用函式,它可以被學習,因為你可以對它進行反向傳播。這使神經元能夠選擇負區域最好的梯度,有了這種能力,它們可以變成 ReLU 或 Leaky ReLU。

總之,最好使用 ReLU,但是你可以使用 Leaky ReLU 或 Parametric ReLU 實驗一下,看看它們是否更適合你的問題。

5.6 Swish

一文概覽深度學習中的啟用函式

Swish 啟用函式

該函式又叫作自門控啟用函式,它近期由谷歌的研究者釋出,數學公式為:

一文概覽深度學習中的啟用函式

根據論文(https://arxiv.org/abs/1710.05941v1),Swish 啟用函式的效能優於 ReLU 函式。

根據上圖,我們可以觀察到在 x 軸的負區域曲線的形狀與 ReLU 啟用函式不同,因此,Swish 啟用函式的輸出可能下降,即使在輸入值增大的情況下。大多數啟用函式是單調的,即輸入值增大的情況下,輸出值不可能下降。而 Swish 函式為 0 時具備單側有界(one-sided boundedness)的特性,它是平滑、非單調的。更改一行程式碼再來檢視它的效能,似乎也挺有意思。一文概覽深度學習中的啟用函式

原文連結:https://www.learnopencv.com/understanding-activation-functions-in-deep-learning/

相關文章