卷積神經網路CNN（2）—— BN(Batch Normalization) 原理與使用過程詳解

Fate_fjh發表於2016-11-28

原文網址 : https://blog.csdn.net/Fate_fjh/article/details/53375881

前言

Batch Normalization是由google提出的一種訓練優化方法。參考論文：Batch Normalization Accelerating Deep Network Training by Reducing Internal Covariate Shift
網上對BN解釋詳細的不多，大多從原理上解釋，沒有說出實際使用的過程，這裡從what, why, how三個角度去解釋BN。

What is BN

Normalization是資料標準化（歸一化，規範化），Batch 可以理解為批量，加起來就是批量標準化。
先說Batch是怎麼確定的。在CNN中，Batch就是訓練網路所設定的圖片數量batch_size。

Normalization過程，引用論文中的解釋：
這裡寫圖片描述
輸入：輸入資料x1…xm（這些資料是準備進入啟用函式的資料）
計算過程中可以看到,
1.求資料均值；
2.求資料方差；
3.資料進行標準化（個人認為稱作正態化也可以）
4.訓練引數γ，β
5.輸出y通過γ與β的線性變換得到新的值
在正向傳播的時候，通過可學習的γ與β引數求出新的分佈值

在反向傳播的時候，通過鏈式求導方式，求出γ與β以及相關權值
這裡寫圖片描述

Why is BN

解決的問題是梯度消失與梯度爆炸。
關於梯度消失，以sigmoid函式為例子，sigmoid函式使得輸出在[0,1]之間。
這裡寫圖片描述
事實上x到了一定大小，經過sigmoid函式的輸出範圍就很小了，參考下圖

如果輸入很大，其對應的斜率就很小，我們知道，其斜率（梯度）在反向傳播中是權值學習速率。所以就會出現如下的問題，

在深度網路中，如果網路的啟用輸出很大，其梯度就很小，學習速率就很慢。假設每層學習梯度都小於最大值0.25，網路有n層，因為鏈式求導的原因，第一層的梯度小於0.25的n次方，所以學習速率就慢，對於最後一層只需對自身求導1次，梯度就大，學習速率就快。
這會造成的影響是在一個很大的深度網路中，淺層基本不學習，權值變化小，後面幾層一直在學習，結果就是，後面幾層基本可以表示整個網路，失去了深度的意義。

關於梯度爆炸，根據鏈式求導法，
第一層偏移量的梯度=啟用層斜率1x權值1x啟用層斜率2x…啟用層斜率(n-1)x權值(n-1)x啟用層斜率n
假如啟用層斜率均為最大值0.25，所有層的權值為100，這樣梯度就會指數增加。

How to use BN

先解釋一下對於圖片卷積是如何使用BN層。
這裡寫圖片描述
這是文章卷積神經網路CNN（1）中5x5的圖片通過valid卷積得到的3x3特徵圖（粉紅色）。這裡假設通道數為1，batch為1，即大小為[1,1,5,5]。特徵圖裡的值，作為BN的輸入，也就是這5x5個數值通過BN計算並儲存γ與β，通過γ,β以及輸入x計算BN層輸出。正向傳播過程如上述，對於反向傳播就是根據求得的γ與β計算梯度。
這裡需要著重說明的細節：
網路訓練中以batch_size為最小單位不斷迭代，很顯然，新的batch_size進入網路，會產生新的γ與β。在caffe的實現中，通過滑動平滑的方式更新γ與β。

結合論文中給出的使用過程進行解釋
這裡寫圖片描述
輸入：待進入啟用函式的變數
輸出：
1.對於K個啟用函式前的輸入，所以需要K個迴圈。每個迴圈中按照上面所介紹的方法計算γ與β。通過γ,β與輸入x的變換求出BN層輸出。
2.在反向傳播時利用γ與β求得梯度從而改變訓練權值（變數）。
3.通過不斷迭代直到訓練結束，求得關於不同層以及不同batch的γ與β。
4.對於K個啟用函式前的輸入，每個迴圈中，計算該層所有batch的γ與β，並對其做無偏估計得到E[x]與Var[x]。
5.在預測的正向傳播時，使用訓練時最後得到的γ與β，以及其無偏估計，通過圖中11:所表示的公式計算BN層輸出。
至此，BN層的原理與使用過程就解釋完畢，給出的解釋都是本人覺得值得注意或這不容易瞭解的部分，如有錯漏，請指正。
BN層正向傳播之前存在勘誤，博文已經過修改

卷積神經網路（CNN）詳解
2021-08-05
卷積神經網路CNN
卷積神經網路CNN
2020-11-04
卷積神經網路CNN
【深度學習原理第4篇】卷積神經網路詳解（CNN）
2020-11-21
深度學習卷積神經網路CNN
CNN神經網路之卷積操作
2019-07-19
CNN神經網路卷積
Tensorflow-卷積神經網路CNN
2021-01-31
卷積神經網路CNN
卷積神經網路(CNN)介紹與實踐
2018-07-19
卷積神經網路CNN
卷積神經網路：Convolutional Neural Networks(CNN)
2019-01-12
卷積神經網路CNN
卷積神經網路（Convolutional Neural Network，CNN）
2018-08-17
卷積神經網路CNN
直白介紹卷積神經網路（CNN）
2018-04-09
卷積神經網路CNN
CNN-卷積神經網路簡單入門（2）
2022-02-06
CNN卷積神經網路
卷積神經網路-2
2018-04-19
卷積神經網路
TensorFlow上實現卷積神經網路CNN
2020-04-06
卷積神經網路CNN
Keras上實現卷積神經網路CNN
2020-04-06
Keras卷積神經網路CNN
卷積神經網路CNN-學習1
2020-12-28
卷積神經網路CNN
BN（Batch Normalization）層的詳細介紹
2019-04-08
BATORM
詳解卷積神經網路（CNN）在語音識別中的應用
2019-03-01
卷積神經網路CNN
“卷積神經網路（Convolutional Neural Network，CNN）”之問
2019-03-05
卷積神經網路CNN
【python實現卷積神經網路】卷積層Conv2D反向傳播過程
2020-04-16
Python卷積神經網路反向傳播
神經網路之卷積篇：詳解卷積步長（Strided convolutions）
2024-08-14
神經網路卷積IDE
卷積神經網路 part2
2020-08-08
卷積神經網路
Batch Normalization: 如何更快地訓練深度神經網路
2019-04-18
BATORM神經網路
神經網路之卷積篇：詳解經典網路（Classic networks）
2024-10-12
神經網路卷積
卷積神經網路
2020-03-10
卷積神經網路
神經網路之卷積篇：詳解單層卷積網路（One layer of a convolutional network）
2024-08-20
神經網路卷積
吳恩達《卷積神經網路》課程筆記（1）– 卷積神經網路基礎
2018-08-02
吳恩達卷積神經網路筆記
卷積神經網路—基本部件（2）
2018-06-12
卷積神經網路
卷積神經網路數學原理解析
2022-09-16
卷積神經網路
【深度學習筆記】Batch Normalization (BN)
2019-01-07
深度學習筆記BATORM
卷積神經網路(CNN)反向傳播演算法公式詳細推導
2020-04-04
卷積神經網路CNN反向傳播演算法公式
卷積神經網路概述
2018-10-24
卷積神經網路
解密卷積神經網路！
2018-11-06
解密卷積神經網路
5.2.1 卷積神經網路
2019-12-31
卷積神經網路
卷積神經網路-AlexNet
2024-06-21
卷積神經網路
卷積神經網路-1
2018-04-19
卷積神經網路
卷積神經網路-3
2018-04-20
卷積神經網路
吳恩達《卷積神經網路》課程筆記（2）– 深度卷積模型：案例研究
2018-08-02
吳恩達卷積神經網路筆記模型
通俗易懂：圖卷積神經網路入門詳解
2019-11-06
卷積神經網路
Matlab程式設計之——卷積神經網路CNN程式碼解析
2019-03-02
Matlab程式設計卷積神經網路CNN
深度學習之卷積神經網路(Convolutional Neural Networks, CNN)(二)
2018-05-28
深度學習卷積神經網路CNN

卷積神經網路CNN（2）—— BN(Batch Normalization) 原理與使用過程詳解

前言

What is BN

Why is BN

How to use BN

相關文章