【機器學習】之第五章——神經網路

FavoriteStar發表於2022-11-27

第五章——神經網路

5.1、神經元模型

神經網路中最基本的成分為神經元模型,用M-P神經元模型來表示,如下圖所示:

圖1

每個神經元接收到來自\(n\)個其他神經元傳遞過來的輸入訊號,這些輸入訊號透過帶權重的連線進行傳遞,神經元接收到的總輸入值將於神經元的閾值進行比較,然後透過啟用函式處理以產生神經元的輸出。而理想的啟用函式是階躍函式,但其數學特性不夠好,不方便我們計算。因此典型的啟用函式為Sigmoid函式,如下圖:

圖2

那麼功能神經元的輸出公式為\(f(\sum_{i}\omega_ix_i-\theta)\)

此處補充Sigmoid函式的一個知識點:\(y=Sigmoid(x)\)函式的取值可以理解為標記\(y\)取1的機率。這裡需要引入指數族分佈來進行解釋:

​ 對於指數族分佈來說,其機率密度函式可以寫成

\[P(y;\eta)=b(y)exp(\eta^TT(y)-\alpha(\eta)) \]

其中\(b(y)\)用來進行歸一化從而可以表示成機率,其中\(T(y)\)為關於\(y\)的函式,\(y\)為標記,這一部分最關鍵,另外的\(\eta\)相關可以看成輸入項。

那麼對於二項分佈來說,有

\[f(y)= \begin{cases} p \quad y=1\\ 1-p \quad y=0 \end{cases} \]

則可以寫成

\[p^y(1-p)^{1-y}=e^{ln[p^y(1-p)^{1-y}]}\\ =e^{yln\frac{p}{1-p}+ln(1-p)} \]

\(\eta=ln\frac{p}{1-p}\),則可以化簡出

\[p=\frac{e^{\eta}}{1+e^{\eta}}=\frac{1}{1+e^{-\eta}} \]

因此Sigmoid函式可以看成為輸入\(x\)使得輸出取到1機率

5.2、感知機與多層網路

先從最簡單的神經網路模式感知機來認識神經網路。

感知機由兩層神經元組成,如下圖所示:

題3

輸入層接受外界的輸入訊號後傳遞給輸出層。注意在感知機中只有輸出層的神經元是M-P神經元,會對輸入進行非線性變化,而輸入層的神經元並不會進行非線性變化,只是將輸入接受並傳遞到下一層的神經元而已。而感知機模型由於只有輸出層進行了啟用函式處理(即只擁有單層功能神經元),因此其學習能力非常有限,只能用來處理線性可分的問題,而對於非線性可分的問題則會陷入震盪,難以收斂

如果要處理非線性可分的問題,就需要用擁有多層功能神經元的神經網路模型,例如下圖的多層前饋神經網路模型
圖4

這種模型的特點在於隱含層和輸出層的神經元都是擁有啟用函式的功能神經元,即會對總輸入進行線性變化後再進行輸出的神經元;同時每層神經元與下一層的神經元全互連,神經元之間不存在同層連線,也不存在跨層連線,這是前饋的特點。那麼多層網路所需要學習的引數就包括連線神經元之間的各個權重,以及各功能神經元的閾值

5.3、誤差逆傳播演算法

誤差逆傳播演算法(BP演算法)可用於訓練多層網路,也稱為反向傳播演算法。其具體過程如下:

圖5

各種引數的含義在圖中已表明,另外仍需補充:\(\theta_j\)為輸出層第\(j\)個神經元的閾值,而\(\gamma_h\)表示隱層第\(h\)個神經元的閾值。

誤差逆傳播演算法的思想遍歷所有例項(可多次遍歷),在於對每一個例項計算一次預測結果的均方誤差,再對引數進行一次修正

對於訓練例子\((x_k,y_k)\),假設神經網路的輸出結果為\(\hat{y}_k=(\hat{y}_1^k,\hat{y}_2^k,...\hat{y}_l^k)\)

那麼在訓練例子\((x_k,y_k)\)上的均方誤差為:

\[E_k=\frac{1}{2}\sum_{j=1}^{l}(\hat{y}_j^k-y_j^k)^2 \]

BP演算法基於梯度下降策略,對目標的負梯度方向對引數進行調整,每個引數具體的更新公式如下:

任意引數的更新估計式為:

\[v\longleftarrow v+\Delta v \]

那麼每次遍歷一個樣本對每個引數的更新量為:

\[\Delta\omega_{hj}=\eta g_jb_h\\ \Delta \theta_j=-\eta g_j\\ \Delta v_{ih}=\eta e_h x_i\\ \Delta \gamma _h=-\eta e_h\\ \]

其中 \(\quad e_h=b_h(1-b_h)\sum_{j=1}^l \omega_{hj}g_j\),而\(\eta \in (0,1)\)代表學習率,其控制著演算法每一輪迭代中的更新步長,若過大則容易陷入震盪,若太小則收斂速度過慢。

下圖為標準BP演算法的學習過程,可文字表述為:對每一個訓練樣本,BP演算法先將該樣本提供給輸入層神經元,然後逐層將訊號前傳直至產生輸出層的結果,然後計算輸出層的誤差,再將誤差反向傳播到隱層神經元,最後再根據隱層神經元的誤差來對連線權和閾值進行調整。遍歷所有樣本來重複以上過程,也可遍歷幾次樣本,直至達到某種停止條件為止。

演算法

但需要注意的是,BP演算法的目標實際上是最最佳化訓練集\(D\)上的累計誤差:

\[E=\frac{1}{m}\sum_{k=1}^mE_k \]

但上文介紹的標準BP演算法每次僅針對一個訓練樣本來更新權重,因此會更新得非常頻繁,並在可能在不用樣本之間的引數更新出現“抵消”的情況,所以標準BP演算法往往需要進行多輪迴圈的迭代才能夠達到要求。而如果是針對累計誤差的更新則稱為累計BP演算法,它在讀取整個訓練集\(D\)一遍之後計算出累計誤差才對引數進行更新,雖然這樣更新頻率降低但是計算量相對來說會大很多,並且在很多工中累計誤差下降到一定程度後,進一步下降會非常緩慢。

對於神經網路來說,由於其強大的學習能力和表示能力,在學習過程中會經常出現過擬合的現象,對訓練樣本的學習程度過深,導致訓練誤差持續降低而測試誤差反而上升。一般來說有兩種緩解BP網路的過擬合的策略:

  • 早停:將資料集分為訓練集和驗證集(不是測試集,測試集需要用來計算其泛化誤差),訓練集用來計算梯度、更新引數,驗證集用來估計誤差若訓練集誤差降低而驗證集誤差升高則停止訓練,返回具有最小驗證集誤差時的各引數值。
  • 正則化:其思想就是在誤差目標函式中加入一個用於表示模型複雜度的部分,這就可以在最小化誤差函式的時候同時限制模型的複雜度

5.4、全域性最小與區域性最小

對於BP網路來說,由於其是依靠梯度來進行更新的,因此在學習過程中有可能會陷入區域性最優(區域性最優處梯度也為0)的問題中。為了解決該問題也有以下幾種策略:

  • 多組不同引數值初始化多個神經網路,並按照標準BP演算法訓練後選取其中誤差最小的神經網路的引數做為最終引數。這就相當於從多個不用的初始點開始搜尋,更有機會可以找到全域性最優。
  • 使用模擬退火技術:模擬退火的思想是在每一步都以一定的機率接受比當前解更差的結果,例如在誤差函式下降的過程中有可能會出現接受一個新的引數使得誤差函式值增加,因此這有利於跳出區域性最優解。而且隨著迭代過程的深入,接受次優解的機率也會逐漸下降,因此可以保證演算法的穩定性。但這也有可能使演算法跳出全域性最優解。
  • 使用隨機梯度下降:其實標準BP演算法的思想就是隨機梯度下降的思想,因為標準BP演算法每次進行更新的都是單個樣本的誤差,而不是全部樣本的誤差,這樣由於不同樣本的誤差而導致的引數更新之間可能存在相互抵消的可能性,也就是說遍歷了所有樣本完成了一次迴圈的更新,與累計BP演算法對累計誤差所進行的一次更新,可能是不一樣的,因此這就具有一定的隨機性,就算陷入區域性最小點,也可能在該點計算某個樣本的誤差梯度時不為0,因此跳出了區域性最小點。

相關文章