【讀書1】【2017】MATLAB與深度學習——消失的梯度(1)
它的實現也是極其容易的。
Its implementation is extremely easy aswell.
sigmoid函式將節點的輸出範圍限制為單位1,沒有考慮輸入值的大小。
The sigmoid function limits the node’soutputs to the unity regardless of the input’s magnitude.
相反,ReLU函式不受這樣的限制。
In contrast, the ReLU function does notexert such limits.
如此簡單的變化導致了深度神經網路學習效能的急劇提高,難道不是很有意思嗎?
Isn’t it interesting that such a simplechange resulted in a drastic improvement of the learning performance of thedeep neural network?
反向傳播演算法中需要的另一個元素是ReLU函式的導數。
Another element that we need for the back-propagationalgorithm is the derivative of the ReLU function.
根據ReLU函式的定義,它的導數為:
By the definition of the ReLU function, itsderivative is given as:
此外,交叉熵驅動的學習規則可以改善效能,如第3章所述。
In addition, the cross entropy-drivenlearning rules may improve the performance, as addressed in Chapter 3.
此外,先進的梯度下降法是一種較好的實現最優值的數值方法,對深度神經網路的訓練也有一定的意義。
Furthermore, the advanced gradient descent,which is a numerical method that better achieves the optimum value, is alsobeneficial for the training of the deep neural network.
過度擬合(Overfitting)
深度神經網路特別容易過擬合的原因是模型變得更加複雜,因為模型中包含更多的隱藏層,以及更多的權值。
The reason that the deep neural network isespecially vulnerable to overfitting is that the model becomes more complicatedas it includes more hidden layers, and hence more weight.
如第1章所述,一個複雜的模型更容易被過度擬合。
As addressed in Chapter 1, a complicatedmodel is more vulnerable to overfitting.
可能會陷入兩難的境地——為了更高的效能而加深神經網路的層數,但使得神經網路面臨機器學習的挑戰。
Here is the dilemma—deepening the layersfor higher performance drives the neural network to face the challenge ofMachine Learning.
最具代表性的解決方案是dropout,它只訓練隨機選擇的一些節點,而不是整個網路。
The most representative solution is thedropout, which trains only some of the randomly selected nodes rather than theentire network.
這是非常有效的,而它的實現並不十分複雜。
It is very effective, while itsimplementation is not very complex.
圖5-4解釋了dropout的概念。
Figure 5-4 explains the concept of thedropout.
圖5-4 dropout是隨機選擇一些節點並將它們的輸出設定為零(即這些被選擇的節點不參與網路的訓練運算)Dropout is where some nodes are randomly selected and their outputsare set to zero to deactivate the nodes
隨機選擇一些節點並將它們的輸出設定為零。
Some nodes are randomly selected at acertain percentage and their outputs are set to be zero to deactivate thenodes.
dropout有效地防止過度擬合,因為它不斷地改變訓練過程中的節點和權重。
The dropout effectively preventsoverfitting as it continuously alters the nodes and weights in the trainingprocess.
對於隱藏層和輸入層,dropout的合適比例分別約為50%和25%。
The adequate percentages of the dropout areapproximately 50% and 25% for hidden and input layers, respectively.
用於防止過擬合的另一種流行方法是將正則化項新增到代價函式中,其中正則化項提供權重的幅度大小。
Another prevailing method used to preventoverfitting is adding regularization terms, which provide the magnitude of theweights, to the cost function.
——本文譯自Phil Kim所著的《Matlab Deep Learning》
更多精彩文章請關注微訊號:
相關文章
- 【讀書1】【2017】MATLAB與深度學習——深度學習(2)Matlab深度學習
- 【讀書1】【2017】MATLAB與深度學習——異或問題(1)Matlab深度學習
- RNN梯度消失與梯度爆炸的原因RNN梯度
- 《神經網路和深度學習》系列文章三十九:梯度消失問題神經網路深度學習梯度
- 【深度學習 論文篇 02-1 】YOLOv1論文精讀深度學習YOLOv1
- 深度學習讀書筆記之RBM深度學習筆記
- Matlab學習筆記(1)——imshow函式的使用Matlab筆記函式
- 吳恩達《神經網路與深度學習》課程筆記(1)– 深度學習概述吳恩達神經網路深度學習筆記
- 2017讀書小結(我的前端學習程式)前端
- 機器學習中的數學(1):迴歸、梯度下降機器學習梯度
- 深度學習利器之自動微分(1)深度學習
- Andrew NG 深度學習課程筆記:梯度下降與向量化操作深度學習筆記梯度
- 深度學習day1(第一章:什麼是深度學習?)深度學習
- 梯度消失和梯度爆炸及解決方案梯度
- 深度學習面試的時候,如何回答1x1卷積的作用深度學習面試卷積
- 2017深度學習展望深度學習
- 強化學習(十六) 深度確定性策略梯度(DDPG)強化學習梯度
- 神經網路和深度學習(1):前言神經網路深度學習
- (1) Pytorch深度學習—數值處理PyTorch深度學習
- 【深度學習】深度學習md筆記總結第1篇:深度學習課程,要求【附程式碼文件】深度學習筆記
- 1. 梯度下降法梯度
- 一文讀懂:梯度消失(爆炸)及其解決方法梯度
- 2017年深度學習重大研究進展全解讀深度學習
- FPGA讀書筆記1FPGA筆記
- 梯度下降法原理與模擬分析||系列(1)梯度
- 讀懂深度學習,走進“深度學習+”階段深度學習
- 基於梯度的學習梯度
- 深度學習很難?一文讀懂深度學習!深度學習
- pytorch(1)梯度計算PyTorch梯度
- OpenCV 例項解讀:深度學習的計算與加速OpenCV深度學習
- 一文讀懂深度學習與機器學習的差異深度學習機器學習
- 《程式碼大全》讀書筆記1(1-4)筆記
- 學習1
- 讀書筆記-資訊收集1筆記
- Linux下C和matlab混合程式設計學習(1)LinuxMatlab程式設計
- 1.Django介紹與學習Django
- 《禪者的初心》讀書筆記(1)筆記
- 諾埃爾的讀書筆記1筆記