Pattern Recognition and Machine Learning第五章神經網路模型(4)

哲遠發表於2012-02-03

enter image description hereenter image description here對於絕大多數的模式識別的應用中我們對於結果的預測是不變的,無論對於輸入值採取的是怎樣複雜的變化,考慮對於一個二維影像的分類(例如手寫體),某一個影像應當被分類為一個特定的類別而不論這個影像具體存在於哪個位置。如果有一個足夠大的數量的訓練模版是有效的,那麼自適應模型(例如神經網路模型)可以學習這個不變數,至少能夠大約推測出來。

這種方法也許不實用,但是如果訓練數量的個數是有限的,或者有一些不變數的存在,那麼我們可以尋找一個另外的一種方法來鼓勵自適應模型來凸顯需要的不變數,這些可以被分為四大類:

1、訓練集通過訓練模版的副本進行放大,通過不變數的存在進行改變。

2、一個正規化項加到誤差函式中來補償由於輸入變化造成模型輸出值的改變,這個結果稱作tangent propagation切線繁殖

3、不變數被預置在預處理過程中,通過在需要改變的條件下提取不變數的特徵,任何隨後的迴歸或者分類系統使用這樣的特徵作為輸入,將會包含這些不變值。

4、最後的一個方法就是將這些不變數屬性建立於神經網路的結構中,一個獲得這個目的的方法就是通過使用區域性接受域和共享權值。在卷積神經網路中將會談論到。

Tangent propagation切線繁殖

我們可以通過正規化的手段來鼓勵模型對於輸入資料的變化,通過切線繁殖(Tangent Propagation)的手法達到目的,考慮一個特定的輸入向量xn的轉換的效果,考慮到這個變化是連續的,我們可以討論引入一個量ξ主宰了這個變化,因此切線向量為:enter image description here

enter image description here

因此我們如果需要知道這個變數對於輸出結果的影響,我們需要用yk對ξ取導數:

enter image description here

通過新增一個修正項Ω給出一個新的誤差函式的形式:

enter image description here

enter image description here

在實際的應用中,τn可以被通過最終誤差方法(Finite Differences)來進行計算,通過減去原來的向量xn,然後再除以ξ即可得到。

訓練經過變化的資料

我們已經瞭解鼓勵一個模型的不變數的方法在於使用原先資料集發生改變過的版本來擴大訓練集資料,這裡我們引入一個方法和Tangent propagation非常接近的一個方法。

對於之前的那個例子我們瞭解到。如果沒有發生變化,誤差函式為:

enter image description here

這裡我們考慮一個神經網路的例子,只有一個輸出值,為了保證標記值的清楚,我們這裡考慮這裡有無數個資料點的複製,其中ξ由p(ξ)來決定:

enter image description here

enter image description here

enter image description here

Ω值為:

enter image description here

我們為了更加對這個項進行簡化,我們可以採取以下的式子:

enter image description here

因此。對於第一項:

enter image description here

假設加入的噪聲點僅僅是新增了一個隨機噪音,即x->x+ξ,那麼修正項為:

enter image description here

軟權值共享(Soft weight sharing)

一個減少網路的複雜性的方法是通過限制權值在一些特定的群組中,我們通過軟權值共享方法,其中強制限制權值方法被一個正則花方法取代,其中不同的組別的權值被鼓勵允許擁有相同的值大小。進一步,將不同的權值分配到不同的組別中,對於每一個組別的平均權值大小和這些值在組中的分佈情況是被認為是一個學習過程。

我們回顧之前提到的一個簡單的權值衰減修正項,可以被視為高斯先驗分佈的取負log,我們鼓勵這些權值形成多個不同的組別,而不是僅僅在一個組中間,通過考慮一個高斯分佈的組合實現,這些高斯分佈,包括混合的協引數,平均值,方差,可以被視為可以進行調節的,並且是一個學習過程,因此我們有一個概率分佈形式為:

enter image description here

enter image description here

我們可以得到一個正規化項函式為如下的形式:

enter image description here

因此最終的誤差函式為:

enter image description here

為了最小化最終的誤差函式,我們必須要把誤差函式能夠對各種可進行調整的引數進行求導,我們首先需要把{πj}看作先驗概率然後引入一個相應的後驗概率:

enter image description here

enter image description here

誤差函式對高斯函式的中點可以被簡單地計算為:

enter image description here

這裡有一個簡單而直接的解釋,由於它將μj推向權值的平均值

enter image description here

為了實際的應用中我們引入一個新的引數ηj:

enter image description here

enter image description here

enter image description here

因此修正的誤差函式對ηj的求導為:

enter image description here

因此,我們可以看到,πj逐漸被帶到後驗概率的平均值處。

相關文章