深度學習方法(六):神經網路weight引數怎麼初始化
歡迎轉載,轉載請註明:本文出自Bin的專欄blog.csdn.net/xbinworld。
技術交流QQ群:433250724,歡迎對演算法、技術感興趣的同學加入。
神經網路,或者深度學習演算法的引數初始化是一個很重要的方面,傳統的初始化方法從高斯分佈中隨機初始化引數。甚至直接全初始化為1或者0。這樣的方法暴力直接,但是往往效果一般。本篇文章的敘述來源於一個國外的討論帖子[1],下面就自己的理解闡述一下。
首先我們來思考一下,為什麼在神經網路演算法(為了簡化問題,我們以最基本的DNN來思考)中,引數的選擇很重要呢?以sigmoid函式(logistic neurons)為例,當x的絕對值變大時,函式值越來越平滑,趨於飽和,這個時候函式的倒數趨於0,例如,在x=2時,函式的導數約為1/10,而在x=10時,函式的導數已經變成約為1/22000,也就是說,啟用函式的輸入是10的時候比2的時候神經網路的學習速率要慢2200倍!
為了讓神經網路學習得快一些,我們希望啟用函式sigmoid的導數較大。從數值上,大約讓sigmoid的輸入在[-4,4]之間即可,見上圖。當然,也不一定要那麼精確。我們知道,一個神經元j的輸入是由前一層神經元的輸出的加權和,xj=∑iai⋅wi+bj。因此,我們可以通過控制權重引數初始值的範圍,使得神經元的輸入落在我們需要的範圍內。
一種比較簡單、有效的方法是:權重引數初始化從區間均勻隨機取值。
(−1d√,1d√),其中d是一個神經元的輸入數量。
為了說明這樣取值的合理性,先簡單回顧一下幾點基本知識:
1.符合均勻分佈U(a,b)的隨機變數數學期望和方差分別是——數學期望:E(X)=(a+b)/2,方差:D(X)=(b-a)²/12
2.如果隨機變數X,Y是相互獨立的,那麼Var(X+Y) = Var(X)+Var(Y),如果X,Y是相互獨立的且均值為0,那麼Var(X*Y) = Var(X)*Var(Y)
因此,如果我們限制神經元的輸入訊號(xi)是均值=0,標準差=1的,那麼
也就是說,隨機的d個輸入訊號加權和,其中權重來自於(−1d√,1d√)均勻分佈,服從均值=0,方差=1/3的正態分佈,且與d無關。所以神經元的輸入落在區間[-4,4]之外的概率非常小。
更一般的形式可以寫為:
另外一種較新的初始值方法
根據Glorot & Bengio (2010) [4], initialize the weights uniformly within the interval [−b,b], where
Hk and Hk+1 are the sizes of the layers before and after the weight matrix, for sigmoid units. Or hyperbolic tangent units: sample a Uniform [−b,b] with
其他場景的初始值方法[2]
-
in the case of RBMs, a zero-mean Gaussian with a small standard deviation around 0.1 or 0.01 works well (Hinton, 2010) to initialize the weights.
-
Orthogonal random matrix initialization, i.e. W = np.random.randn(ndim, ndim); u, s, v = np.linalg.svd(W) then use u as your initialization matrix.
參考資料
[1] http://stats.stackexchange.com/questions/47590/what-are-good-initial-weights-in-a-neural-network
[2] Bengio, Yoshua. “Practical recommendations for gradient-based training of deep architectures.” Neural Networks: Tricks of the Trade. Springer Berlin Heidelberg, 2012. 437-478.
[3] LeCun, Y., Bottou, L., Orr, G. B., and Muller, K. (1998a). Efficient backprop. In Neural Networks, Tricks of the Trade.
[4] Glorot, Xavier, and Yoshua Bengio. “Understanding the difficulty of training deep feedforward neural networks.” International conference on artificial intelligence and statistics. 2010.
相關文章
- 《神經網路和深度學習》系列文章三十:如何選擇神經網路的超引數神經網路深度學習
- 神經網路和深度學習神經網路深度學習
- 深度學習系列(2)——神經網路與深度學習深度學習神經網路
- 【深度學習】神經網路入門深度學習神經網路
- 再聊神經網路與深度學習神經網路深度學習
- 深度學習與圖神經網路深度學習神經網路
- AI之(神經網路+深度學習)AI神經網路深度學習
- 【深度學習篇】--神經網路中的卷積神經網路深度學習神經網路卷積
- 【深度學習】1.4深層神經網路深度學習神經網路
- 深度學習教程 | 深層神經網路深度學習神經網路
- 深度學習三:卷積神經網路深度學習卷積神經網路
- 神經網路和深度學習(1):前言神經網路深度學習
- 深度學習與神經網路學習筆記一深度學習神經網路筆記
- 深度學習筆記------卷積神經網路深度學習筆記卷積神經網路
- 深度學習之上,圖神經網路(GNN )崛起深度學習神經網路GNN
- 深度學習卷積神經網路筆記深度學習卷積神經網路筆記
- 深度學習之step by step搭建神經網路深度學習神經網路
- 深度學習迴圈神經網路詳解深度學習神經網路
- 神經網路和深度學習簡史(全)神經網路深度學習
- 深度學習之RNN(迴圈神經網路)深度學習RNN神經網路
- 深入研究神經網路和深度學習神經網路深度學習
- 神經網路和深度學習簡史(一)神經網路深度學習
- 深度學習與圖神經網路學習分享:CNN 經典網路之-ResNet深度學習神經網路CNN
- 《神經網路和深度學習》系列文章二十八:權重初始化神經網路深度學習
- NLP與深度學習(二)迴圈神經網路深度學習神經網路
- 【機器學習基礎】神經網路/深度學習基礎機器學習神經網路深度學習
- 初探神經網路與深度學習 —— 感知器神經網路深度學習
- 神經網路:提升深度學習模型的表現神經網路深度學習模型
- 深度學習——LeNet卷積神經網路初探深度學習卷積神經網路
- 《神經網路和深度學習》系列文章三十八:深度神經網路為何很難訓練?神經網路深度學習
- 深度學習經典卷積神經網路之AlexNet深度學習卷積神經網路
- 神經網路與深度學習 課程複習總結神經網路深度學習
- 《神經網路和深度學習》系列文章七:實現我們的神經網路來分類數字神經網路深度學習
- 神經網路初始化神經網路
- 如何除錯神經網路引數除錯神經網路
- bp神經網路學習神經網路
- 深度學習教程 | 神經網路基礎深度學習神經網路
- 深度學習、神經網路最好的入門級教程深度學習神經網路