【機器學習】李宏毅——何為反向傳播

FavoriteStar發表於2022-12-15

原文網址 : https://www.cnblogs.com/FavoriteStar/p/16986269.html

回顧一下梯度下降的過程：

假設當前神經網路有以下引數\(\theta = \{\omega_1,\omega_2,...,b_1,b_2,...\}\)，那麼梯度下降就是計算損失函式對於每個引數的梯度，然後按照梯度更新公式來更新每一個引數。但在深度學習中引數量巨大，這樣計算時間過長，因此反向傳播就是來高效就計算出損失函式對於每個引數的梯度的。注意反向傳播並不是一個和梯度下降不同的訓練方法，它只是能夠更有效率就計算出損失函式對引數的梯度，來幫助梯度下降過程。

反向傳播

損失函式可以如下表示：

\[L(\theta)=\sum_{n=1}^N C^n(\theta) \]

其中\(C^n(\theta)\)表示第n個樣本的輸出值和理想值之間的距離。那麼：

\[\frac{\partial L(\theta)}{\partial w}=\sum_{n=1}^N \frac{\partial C^n(\theta)}{\partial w} \]

也就是將總體損失對引數的微分轉換成每一個樣本的距離對引數的微分的求和。

在這裡插入圖片描述

假設對於圖上網路：

\[\frac{\partial C}{\partial w}=\frac{\partial z}{\partial w}\frac{\partial C}{\partial z} \]

其中：

\(\frac{\partial z}{\partial w}\)：稱為前向傳播(Forward pass)，較為容易計算
\(\frac{\partial C}{\partial z}\)：稱為反向前進(Backward pass)，較難計算

Forward pass

從上圖中我們可以很簡單地算出

\[\frac{\partial z}{\partial w_1}=x_1\\ \frac{\partial z}{\partial w_2} = x_2 \]

也就是說對於每條邊或者說每個引數，它所連線的下一層的輸入對於該引數的求導就等於上一層在這條邊上的輸入，例如下圖：

在這裡插入圖片描述

所以前向傳播這一步可以很簡單的計算出來。

Bcakward pass

在這裡插入圖片描述

現在需要來考慮如何計算\(\frac{\partial C}{\partial z}\)，假設前述z經過一個Sigmoid函式後得到a，那麼a作為下一層神經網的某一個輸入，因此就可以寫出：

\[\frac{\partial C}{\partial z}=\frac{\partial a}{\partial z}\frac{\partial C}{\partial a} \]

而從上圖中也可以很清楚地看到**可以用微積分的知識轉換成上述公式，而其中對a的求導也可以結合我們上述的知識很容易的求解。因此現在就是如何求解C對兩個z的求導了。

但假設我們當前能夠透過某種方法知道了C對兩個z的求導，同時我們將網路進行些許轉換，如下：

在這裡插入圖片描述

根據那個公式我們可將網路反向過來，這有助於待會理解反向傳播。不過值得注意的是此處神經元結點對於輸入加權和後是乘上\(\sigma`(z)\)，在z確定的時候（當輸入確定時z就確定了）可以看成常數，因此跟正向神經網路的非線性變化不同。

繼續計算C對兩個z的求導：

情況一：

在這裡插入圖片描述

假設\(z`\)和\(z``\)經過非線性變換後已經就是輸出了，那麼這種簡單的情況可以很簡單的寫出上面的計算式，也就很簡單的完成了我們對於引數梯度的計算工作。其中

\[\frac{\partial C}{\partial y}取決於你的損失函式\\ \frac{\partial y}{\partial z}取決於最後一層的非線性變換 \]

情況二：

在這裡插入圖片描述

假設\(z`\)和\(z``\)後面仍然有很多未知的線性變化，但透過前述的講解我們可以明確只要知道了下一層的C對各個z的求導，那麼就一定可以算出當前層C對各個z的求導。因此只要不斷地往後推，找到某一層的z經過非線性變換後就是輸出，那麼就可以計算C對該層的z的求導（情況一），然後再往前推直到C對每一層的z的求導都算出來。

那麼在實際上的做法就是：

建立一個反向的神經網路，其結構相同權重引數相同，但是功能神經元結點的非線性變換變成了常數，就是之前的\(\sigma`(z)\)，這需要先計算Forwardpass之後才可以計算（其中還需要計算\(\frac{\partial z}{\partial w}\))
計算損失函式C對最後一層的每個z的求導，那麼它們就是這個反向神經網路的輸入引數
再根據網路的不斷傳播就可以計算出最終結果

在這裡插入圖片描述

這就是反向傳播。

【機器學習】李宏毅——Transformer
2022-12-18
機器學習ORM
【機器學習】李宏毅——Unsupervised Learning
2022-12-21
機器學習
【機器學習】李宏毅——機器學習任務攻略
2022-12-14
機器學習
【機器學習】李宏毅——線性降維
2022-12-16
機器學習
【機器學習】李宏毅——自監督式學習
2022-12-19
機器學習
【機器學習】李宏毅——機器學習基本概念簡介
2022-12-14
機器學習
【機器學習】李宏毅——Flow-based Generative Models
2022-12-22
機器學習
【機器學習】李宏毅——Adversarial Attack（對抗攻擊）
2022-12-23
機器學習
【機器學習】李宏毅——Anomaly Detection（異常檢測）
2022-12-20
機器學習
【機器學習】李宏毅——Explainable ML(可解釋性的機器學習)
2022-12-22
機器學習AI
【機器學習】李宏毅——AE自編碼器(Auto-encoder)
2022-12-20
機器學習
李宏毅2022機器學習HW4 Speaker Identification下
2024-03-02
機器學習IDE
【機器學習】李宏毅——Domain Adaptation(領域自適應)
2022-12-23
機器學習AIAPT
【機器學習】李宏毅——生成式對抗網路GAN
2022-12-18
機器學習
【機器學習】李宏毅——自注意力機制(Self-attention)
2022-12-16
機器學習
【機器學習】李宏毅——Recurrent Neural Network(迴圈神經網路)
2022-12-17
機器學習神經網路
【機器學習】李宏毅——淺談機器學習原理+魚與熊掌兼得的深度學習簡述
2022-12-15
機器學習深度學習
李巨集毅機器學習-學習筆記
2018-11-13
機器學習筆記
李宏毅2022機器學習HW4 Speaker Identification上(Dataset &Self-Attention)
2024-03-01
機器學習IDE
機器學習分享——反向傳播演算法推導
2019-04-28
機器學習反向傳播演算法
機器學習反向傳播演算法的數學推導
2018-12-09
機器學習反向傳播演算法
《李宏毅機器學習完整筆記》釋出，Datawhale開源專案LeeML-Notes
2019-08-07
機器學習筆記
【機器學習】李宏毅——類神經網路訓練不起來怎麼辦
2022-12-15
機器學習神經網路
李巨集毅機器學習課程筆記-1.機器學習概論
2020-12-22
機器學習筆記
Datawhale X 李宏毅蘋果書 AI夏令營:task1透過案例瞭解機器學習
2024-08-27
蘋果AI機器學習
Datawhale X 李宏毅蘋果書AI夏令營深度學習進階(三)
2024-09-02
蘋果AI深度學習
Datawhale X 李宏毅蘋果書AI夏令營深度學習進階(二)
2024-08-30
蘋果AI深度學習
撒花！李巨集毅機器學習 2021 版正式開放上線
2021-03-07
機器學習
CUDA教學（2）：反向傳播
2024-05-28
反向傳播
正向傳播和反向傳播
2024-07-10
反向傳播
重磅 | 李巨集毅機器學習 2019 最新版上線，中文授課！
2019-03-18
機器學習
李巨集毅機器學習課程筆記-3.梯度下降精講
2020-12-27
機器學習筆記梯度
李巨集毅GAN學習（七） feature extraction
2018-12-29
李巨集毅深度學習筆記(四)
2020-12-10
深度學習筆記
深度學習二：概率和反向傳播的變種
2020-09-25
深度學習反向傳播
[筆記] ELMO, BERT, GPT 簡單講解 - 李宏毅
2023-04-28
筆記GPT
2.反向傳播
2024-03-17
反向傳播
【TensorFlow篇】--反向傳播
2018-03-27
反向傳播

【機器學習】李宏毅——何為反向傳播

反向傳播

Forward pass

Bcakward pass

相關文章