深度學習面試100題（第61-65題）

七月線上實驗室發表於2018-07-24

原文網址 : https://blog.csdn.net/t7sfokzord1jaymsfk4/article/details/81212438

深度學習面試

點選藍字關注我們，小七等你好久嘍

深度學習

面試大題第61-65題

61題

深度學習中有什麼加快收斂/降低訓練難度的方法？

解析：

瓶頸結構

殘差

學習率、步長、動量

優化方法

預訓練

62題

請簡單說下計算流圖的前向和反向傳播

解析：

63題

請寫出鏈式法則並證明

解析：

鏈式法則或鏈鎖定則（英語：chain rule），是求複合函式導數的一個法則。設f和g為兩個關於x的可導函式，則複合函式

的導數

為

以下是一個簡單的例子

以下的簡單的一個證明

64題

請寫出Batch Normalization的計算方法及其應用

解析：

機器學習流程簡介

1）一次性設定（One time setup）

- 啟用函式（Activation functions）

- 資料預處理（Data Preprocessing）

- 權重初始化（Weight Initialization）

- 正則化（Regularization：避免過擬合的一種技術）

- 梯度檢查（Gradient checking）

2）動態訓練（Training dynamics）

- 跟蹤學習過程（Babysitting the learning process）

- 引數更新（Parameter updates)

- 超級引數優化（Hyperparameter optimization）

- 批量歸一化（Batch Normalization簡稱BN，其中，Normalization是資料標準化或歸一化、規範化，Batch可以理解為批量，加起來就是批量標準化。解決在訓練過程中中間層資料分佈發生改變的問題，以防止梯度消失或爆炸、加快訓練速度）

3）評估（Evaluation）

- 模型組合（Model ensembles）

(訓練多個獨立的模型，測試時，取這些模型結果的平均值)

為什麼輸入資料需要歸一化（Normalized Data），或者說，歸一化後有什麼好處呢？

原因在於神經網路學習過程本質就是為了學習資料分佈，一旦訓練資料與測試資料的分佈不同，那麼網路的泛化能力也大大降低，所以需要使用輸入資料歸一化方法，使訓練資料與測試資料的分佈相同。

另外一方面，加之神經網路訓練時一旦網路某一層的輸入資料的分佈發生改變，那麼這一層網路就需要去適應學習這個新的資料分佈，所以如果訓練過程中，訓練資料的分佈一直在發生變化，那麼將會影響網路的訓練速度。

為了讓訓練深度網路簡單高效，研究者提出了隨機梯度下降法（SGD），但是它有個毛病，就是需要我們人為的去選擇引數，比如學習率、引數初始化、權重衰減係數、Drop out比例等。這些引數的選擇對訓練結果至關重要，以至於我們很多時間都浪費在這些的調參上。

舉個例子，比如某個神經元 x = 1, 某個 Weights 的初始值為 0.1, 這樣後一層神經元計算結果就是 Wx 0.1 *1 = 0.1；

如果 x = 20, 這樣 Wx = 0.1 * 20 = 2。現在還不能看出什麼問題, 但是, 當我們加上一層激勵函式, 啟用這個 Wx 值的時候, 問題就來了。

如果使用像 tanh 的激勵函式, Wx 的啟用值就變成了 ~0.1 和 ~1, 接近於 1 的部已經處在了激勵函式的飽和階段, 也就是如果 x 無論再怎麼擴大, tanh 激勵函式輸出值也還是接近1。

換句話說, 神經網路在初始階段已經不對那些比較大的 x 特徵範圍敏感了. 這樣很糟糕, 想象我輕輕拍自己的感覺和重重打自己的感覺居然沒什麼差別, 這就證明我的感官系統失效了. 當然我們是可以用之前提到的對資料做 normalization 預處理, 使得輸入的 x 變化範圍不會太大, 讓輸入值經過激勵函式的敏感部分. 但剛剛這個不敏感問題不僅僅發生在神經網路的輸入層, 而且在隱藏層中也經常會發生。