神經網路的初始化方法總結 | 又名“如何選擇合適的初始化方法”

CV技術指南（公眾號）發表於2021-10-04

原文網址 : https://www.cnblogs.com/wxkang/p/15366535.html

前言

本文介紹了為什麼初始化很重要，總結了常用的幾種初始化方法：全零或等值初始化、正態初始化、均勻初始化、Xavier初始化、He初始化和Pre-trained初始化，並介紹了幾個還活躍的初始化方向：資料相關初始化、稀疏權重矩陣和隨機正交矩陣初始化。

為什麼初始化很重要

不正確初始化的權重會導致梯度消失或爆炸問題，從而對訓練過程產生負面影響。

對於梯度消失問題，權重更新很小，導致收斂速度變慢——這使得損失函式的優化變慢，在最壞的情況下，可能會阻止網路完全收斂。相反，使用過大的權重進行初始化可能會導致在前向傳播或反向傳播過程中梯度值爆炸。

常見的初始化方法

1. 全零或等值初始化

由於初始化的值全都相同，每個神經元學到的東西也相同，將導致“對稱性(Symmetry)”問題。

2. 正態初始化(Normal Initialization)

均值為零，標準差設定一個小值。

這樣的做好的好處就是有相同的偏差，權重有正有負。比較合理。

例：2012年AlexNet使用“均值為零、標準差設定為0.01、偏差為1的高斯（正常）噪聲進行初始化”的初始化方法。然而，這種正常的隨機初始化方法不適用於訓練非常深的網路，尤其是那些使用 ReLU啟用函式的網路，因為之前提到的梯度消失和爆炸問題。

3. 均勻初始化(Uniform Initialization)

均勻分佈的區間通常為【-1/sqrt(fan_in)，1/sqrt(fan_in)】

其中fan_in表示輸入神經元的數量，fan_out表示輸出神經元的數量。

4. Xavier Initialization

來自論文《Understanding the difficulty of training deep feedforward neural networks》

根據sigmoid函式影像的特點

如果初始化值很小，那麼隨著層數的傳遞，方差就會趨於0，此時輸入值也變得越來越小，在sigmoid上就是在0附近，接近於線性，失去了非線性。

如果初始值很大，那麼隨著層數的傳遞，方差會迅速增加，此時輸入值變得很大，而sigmoid在大輸入值寫倒數趨近於0，反向傳播時會遇到梯度消失的問題。

針對這個問題，Xavier 和 Bengio提出了“Xavier”初始化，它在初始化權重時考慮了網路的大小（輸入和輸出單元的數量）。這種方法通過使權重與前一層中單元數的平方根成反比來確保權重保持在合理的值範圍內。

Xavier 的初始化有兩種變體。

Xavier Normal：正態分佈的均值為0、方差為sqrt( 2/(fan_in + fan_out) )。

Xavier Uniform：均勻分佈的區間為【-sqrt( 6/(fan_in + fan_out)) , sqrt( 6/(fan_in + fan_out)) 】。

Xavier 初始化適用於使用tanh、sigmoid為啟用函式的網路。

5. He Initialization

來自論文《Delving deep into rectifiers: Surpassing human-level performance on ImageNet classification》

啟用函式的選擇最終在決定初始化方法的有效性方面發揮著重要作用。啟用函式是可微的，並將非線性特性引入神經網路，這對於解決機器學習和深度學習旨在解決的複雜任務至關重要。ReLU和leaky ReLU是常用的啟用函式，因為它們對消失/爆炸梯度問題相對魯棒。

Xavier在tanh函式上表現可以，但對 ReLU 等啟用函式效果不好，何凱明引入了一種更魯棒的權重初始化方法--He Initialization。

He Initialization也有兩種變體：

He Normal：正態分佈的均值為0、方差為sqrt( 2/fan_in )。

He Uniform：均勻分佈的區間為【-sqrt( 6/fan_in) , sqrt(6/fan_in) 】

He Initialization適用於使用ReLU、Leaky ReLU這樣的非線性啟用函式的網路。

He Initialization和Xavier Initialization 兩種方法都使用類似的理論分析：它們為從中提取初始引數的分佈找到了很好的方差。該方差適用於所使用的啟用函式，並且在不明確考慮分佈型別的情況下匯出。

圖來自何凱明的論文。

論文展示了何凱明改進的初始化策略（紅色）如何比 (P)ReLU 的 Xavier 方法（藍色）更快地降低錯誤率。

有關 Xavier 和 He 初始化方法的證明，請參閱 Pierre Ouannes 的文章《如何初始化深度神經網路？Xavier 和 Kaiming 初始化》。

6. Pre-trained

使用預訓練的權重作為初始化，相比於其它初始化，收斂速度更快，起點更好。

除了以上的初始化方法外，還包括有LeCun Initialization。方法跟He Initialization和Xavier Initialization類似，但基本沒怎麼看見用，這裡就不列出來了。

權重初始化仍然是一個活躍的研究領域。出現了幾個有趣的研究專案，包括資料相關初始化、稀疏權重矩陣和隨機正交矩陣初始化。

資料相關初始化

論文：Data-dependent Initializations of Convolutional Neural Networks

地址：https://arxiv.org/abs/1511.06856

稀疏權重矩陣初始化

地址：https://openai.com/blog/block-sparse-gpu-kernels/

隨機正交矩陣初始化

論文：Exact solutions to the nonlinear dynamics of learning in deep linear neural networks

地址：https://arxiv.org/abs/1312.6120

參考資料

1. https://medium.com/comet-ml/selecting-the-right-weight-initialization-for-your-deep-neural-network-780e20671b22

2. https://medium.com/analytics-vidhya/weights-initialization-in-neural-network-d962ac438bdb

3. Delving deep into rectifiers: Surpassing human-level performance on ImageNet classification He, K. et al. (2015)

4. Understanding the difficulty of training deep feedforward neural networks

迎關注公眾號 CV技術指南，專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀。

在公眾號中回覆關鍵字 “技術總結”可獲取公眾號原創技術總結文章的彙總pdf。

其它文章

CV技術指南--精華文章彙總分類

歸一化方法總結 | 欠擬合與過擬合技術總結

NMS總結 | 損失函式技術總結

注意力機制技術總結 | 特徵金字塔技術總結

池化技術總結 | 資料增強方法總結

論文創新的常見思路總結 | GPU多卡並行訓練總結

CNN視覺化技術總結（四）視覺化工具與專案

計算機視覺中的影像標註工具總結

各種 Optimizer 梯度下降優化演算法回顧和總結

資源分享 | SAHI：超大圖片中對小目標檢測的切片輔助超推理庫

計算機視覺中的影像標註工具總結

Batch Size對神經網路訓練的影響

PyTorch 中的 ModuleList 和 Sequential: 區別和使用場景

神經網路超引數的調參方法總結

使用 Ray 將 PyTorch 模型載入速度提高 340 倍

計算機視覺中的影像標註工具總結

卷積神經網路的複雜度分析

2021年小目標檢測最新研究綜述

經典論文系列--膠囊網路：新的深度學習網路

經典論文系列 | 目標檢測--CornerNet & 又名 anchor boxes的缺陷

文字識別OCR開源框架的對比--Tesseract vs EasyOCR

計算機視覺專業術語總結(一)構建計算機視覺的知識體系

計算機視覺中的小樣本學習綜述

神經網路初始化
2019-03-19
神經網路
在邊緣裝置上擬合大型神經網路的方法總結
2021-06-03
神經網路
初始化ArrayList的簡單方法總結
2018-06-18
企業如何選擇合適的伺服器--巴克網路
2020-03-23
伺服器
DeepMind開源圖網路庫，一種結合圖和神經網路的新方法
2018-10-19
神經網路
深度神經網路的分散式訓練概述：常用方法和技巧全面總結
2018-11-05
神經網路分散式
如何選擇合適的 BI 工具？
2020-06-19
SD-WAN與SDN：如何選擇合適的虛擬化網路
2019-06-27
Mybatis的初始化和結合Spring Framework後初始化的
2021-09-09
MyBatisSpringFramework
神經網路的啟用函式總結
2018-07-30
神經網路函式
如何選擇適合的美顏SDK？
2023-10-27
如何選擇合適的建站系統
2020-12-23
4種除錯深度神經網路的方法
2019-01-12
除錯神經網路
【人工神經網路基礎】為什麼神經網路選擇了“深度”？
2018-09-05
神經網路
如何快速為網站選擇合適的SSL證書
2020-08-14
網站
神經網路權值為什麼不能初始化為零（1）
2019-05-08
神經網路
機房IP和家庭IP：如何選擇最適合你的網路型別
2023-05-16
型別
如何選擇合適的NoSQL資料庫
2019-03-29
SQL資料庫
如何選擇合適自己的伺服器
2022-02-22
伺服器
伺服器如何選擇合適的配置
2022-02-24
伺服器
如何選擇最好最適合你的MacBook
2022-01-12
Mac
如何為DMAIC選擇合適的專案
2022-04-14
AI
卷積神經網路中的視覺化方法
2019-08-16
卷積神經網路視覺化
如何挑選適合的網路安全培訓班?
2020-01-09
企業網站如何選擇適合自己的伺服器?
2020-09-13
網站伺服器
Mybatis的初始化和結合Spring Framework後初始化的原始碼探究
2021-05-07
MyBatisSpringFramework原始碼
神經網路入門篇：詳解隨機初始化（Random+Initialization）
2023-11-28
神經網路隨機random
Tim定時器初始化的方法
2024-07-02
定時器
如何選擇合適的SSL證書型別
2019-08-05
型別
如何選擇合適的美國伺服器？
2023-03-09
伺服器
如何正確選擇適合的CRM系統？
2022-08-05
GitHub如何選擇合適的license(許可證)
2022-03-27
Github
如何選擇適合自己的solidworks軟體版本
2021-10-15
Solid
伺服器如何選擇合適的IO模型
2022-12-12
伺服器模型
如何選擇適合自己的虛擬主機
2022-10-20
團隊如何選擇合適的Git分支策略？
2023-04-02
Git
如何選擇適合大學使用的郵箱
2023-03-03
如何選擇適合你的程式碼風格？
2021-04-18

神經網路的初始化方法總結 | 又名“如何選擇合適的初始化方法”

為什麼初始化很重要

常見的初始化方法

1. 全零或等值初始化

2. 正態初始化(Normal Initialization)

3. 均勻初始化(Uniform Initialization)

4. Xavier Initialization

5. He Initialization

6. Pre-trained

參考資料

其它文章

相關文章