圖示Softmax及交叉熵損失函式

hearthougan發表於2018-09-14

原文網址 : https://blog.csdn.net/hearthougan/article/details/82706834

熵函式

Softmax函式

Softmax是將神經網路得到的多個值，進行歸一化處理，使得到的值在 [0,1] 之間，讓結果變得可解釋。即可以將結果看作是概率，某個類別概率越大，將樣本歸為該類別的可能性也就越高。Softmax就如下圖（借鑑李宏毅老師的課件）

為了更加清晰的看清整個過程，我將其製作成gif，如下圖所示：

交叉熵：

假設和是關於樣本集的兩個分佈，其中是樣本集的真實分佈，是樣本集的估計分佈，那麼按照真是分佈來衡量識別一個樣本所需要編碼長度的期望（即，平均編碼長度）：

$H(p)=\sum_{i}^{n} p_{i}log\frac{1}{p_{i}}=\sum_{i}^{n}- p_{i}logp_{i}$

如果用估計分佈來表示真實分佈的平均編碼長度，應為：

$H(p,q)=\sum_{i=1}^{n}p_{i}log\frac{1}{q_{i}}=\sum_{i=1}^{n}-p_{i}logq_{i}$

這是因為用來編碼的樣本來自於真是分佈，所以期望值中的概率是 $p_{i}$ 。而就是交叉熵。

注:不瞭解什麼是編碼的請看這裡：如何理解用資訊熵來表示最短的平均編碼長度。

在神經網路後面新增Softmax，真實的標籤（或者是類別）就相當於真實的分佈，經過Softmax得出的值就是預測的結果，因此可以使用交叉熵函式來作為損失函式。有了交叉熵的概念，我們就可以得出，Softmax的損失函式：

$L=\sum- \hat{y}_{i}lny_{i}$

其中 $y_{i}$ 是神經元的輸出也可以作為預測結果， $\hat{y}_{i}$ 是第i個類別的真實值， $\hat{y}_{i}$ 只能取值 $0\: \: or\: \: 1$ 。在Softmax中我們取以為底的對數，因為都是的指數形式，可以方便計算。在反向傳播的過程中，如何對交叉熵損失函式求導呢？可以先看下圖的示例，顯示瞭如何得到損失函式：

由上圖可以看到，損失函式具體形式是什麼。為了計算反向傳播，我們從最後一層開始，也就是首先要對Softmax的輸入 $z_{i}$ 求導，得：

$\frac{\partial L}{\partial z_{i}}=\frac{\partial L}{\partial y_{j}}\frac{\partial y_{j}}{\partial z_{i}}$ ，其中 $\left\{\begin{matrix} \begin{matrix} y_{j}=\frac{e^{z_{j}}}{\sum_{k}e^{z_{k}}}\\ \\ \, \, \, \, \, \, \, \, \, L=\sum_{j}\hat{y_{j}}lny_{j}\\ \end{matrix} \end{matrix}\right.$

由於每個 $y_{j}$ 的分母中都有 $z_{i}$ 的貢獻，故我們要考慮每一個輸出值。則：

$\frac{\partial L}{\partial y_{j}}=\frac{\partial[ -\sum_{j}\hat{y_{j}}logy_{j}]}{\partial y_{j}}=-\sum_{j}\frac{\hat{y_{j}}}{y_{j}}$

對於 $\frac{\partial y_{j}}{\partial z_{i}}$ ，需要分開討論因為 j=i 和 $j\neq i$ 時的求導結果不同，故需分開討論。則

$\frac{\partial L}{\partial z_{i}}=\sum_{j}\frac{\partial (-\hat{y}_{j}lny_{j})}{\partial z_{i}} =\sum_{j}\frac{\partial (-\hat{y}_{j}lny_{j})}{\partial y_{j}} \frac{\partial (y_{j})}{\partial z_{i}}=\left\{\begin{matrix} \frac{\partial (-\hat{y}_{i}lny_{i})}{\partial y_{i}} \frac{ \partial (\frac{e^{z_{i}}}{\sum_{k}e^{z_{k}}})}{\partial z_{i}}&j=i \\ & \\ \sum_{j\neq i}\frac{\partial (-\hat{y}_{j}lny_{j})}{\partial y_{j}} \frac{ \partial (\frac{e^{z_{j}}}{\sum_{k}e^{z_{k}}})}{\partial z_{i}}&j\neq i \end{matrix}\right.$

當時，有：

$\large {\color{Magenta} \begin{matrix} {\color{Golden} \frac{\partial y_{j}}{\partial z_{i}}}=\frac{\partial y_{i}}{\partial z_{i}}=\frac{\partial [\frac{e^{z_{i}} }{\sum_{k}e^{z_{k}}}]}{\partial z_{i}}=\frac{e^{z_{i}}\sum_{k}e^{z_{k}}-(e^{z_{i}})^{2} }{ (\sum_{k}e^{z_{k}})^{2} }\\ \\ \: \: \: \: =\frac{e^{z_{i}} }{\sum_{k}e^{z_{k}} }(1-\frac{e^{z_{i}} }{\sum_{k}e^{z_{k}} })=y_{i}(1-y_{i}) \end{matrix}}$

當 $j\neq i$ 時

${\color{Magenta} {\color{Golden} \frac{\partial y_{j}}{\partial z_{i}}}=\frac{\partial [\frac{e^{z_{j}} }{\sum_{k}e^{z_{k}}}]}{\partial z_{i}}=\frac{0-e^{z_{j}}e^{z_{i}} }{ (\sum_{k}e^{z_{k}})^{2} }=-y_{i}y_{j}}$

故，

$\large \begin{matrix} \, \, \, \, \, \, \, \, \, \, \, \, \, \, \,\, {\color{Red} \frac{\partial L}{\partial z_{i}}}=-\sum_{j}\frac{\hat{y_{j}}}{y_{j}}\frac{\partial y_{j}}{\partial z_{i}}\\ \\ \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: =-\frac{\hat{y_{i}}}{y_{i}}y_{i}(1-y_{i})+\sum_{j\neq i}\frac{\hat{y_{j}}}{y_{j}}y_{i}y_{j}\\ \\ \: \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \: \: \: \: \: \: \: \: \: \: \: =y_{i}\hat{y}_{i}-\hat{y}_{i}+\sum_{j\neq i}y_{i}\hat{y}_{i}\\ \\ \: \: \: \: \: \: \: \: \:\: \: \: \: \: \: \: \: \: \: \: \: =-\hat{y}_{i}+\sum_{j}y_{i}\hat{y}_{j}\\ \\ \; \; \; \; \; \; \;\: \: \: \: \: \: \: \: \: \: \: \: \: =-\hat{y}_{i}+y_{i}\sum_{j}\hat{y}_{j}\\ \\ \: \: \: \: \: \: ={\color{Magenta} y_{i}-\hat{y_{i}}} \end{matrix}$

注：因為如果給定一個樣本 $\large x$ 那麼他對應的真實標籤只有一個值為 $\large 1$ ，其餘為0，故，

$\sum_{j}\hat{y}_{j}=1$

Sotfmax的交叉熵損失函式，還有另外的形式：

$L_{i} = - \sum_{j=1}^{k} 1\left\{y_{(i)} = j\right\} \log \frac{e^{z_{j}}}{\sum_{l=1}^k e^{z_{k} }}=-\hat{y}_{i}lny_{i}$

$\begin{matrix} L = - \frac{1}{m} \left[ \sum_{i=1}^{m} \sum_{j=1}^{k} 1\left\{y_{(i)} = j\right\} \log \frac{e^{z_{j}}}{\sum_{l=1}^k e^{z_{k} }}\right]\\ \\ \; \; \; \; \; \; \; \; \; \; \; \; =- \frac{1}{m} \left[ \sum_{i=1}^{m} \hat{y}_{i} \log \frac{e^{z_{i}}}{\sum_{l=1}^k e^{z_{k} }}\right] {\color{Magenta} =- \frac{1}{m} \left[ \sum_{i=1}^{m} \hat{y}_{i} \log y_{i}\right]} \end{matrix}$

其本質是一樣的，因為 $1\left\{y_{(i)} = j\right\}$ 是示性函式，只有當大括號內的值為真時才取值為1，否則為0，即 $1\left\{y_{(i)} = j\right\}\Leftrightarrow \hat{y_{i}}$ 。

談談交叉熵損失函式
2019-04-12
熵函式
交叉熵損失CrossEntropyLoss
2023-02-20
熵ROS
TensorFlow筆記-06-神經網路優化-損失函式,自定義損失函式,交叉熵
2018-09-12
筆記神經網路優化函式熵
熵、交叉熵及似然函式的關係
2019-07-31
熵函式
softmax迴歸——原理、one-hot編碼、結構和運算、交叉熵損失
2021-08-21
熵
Java開發者的神經網路進階指南：深入探討交叉熵損失函式
2024-06-24
Java神經網路熵函式
【動手學深度學習】第三章筆記：線性迴歸、SoftMax 迴歸、交叉熵損失
2023-04-09
深度學習筆記熵
ML-邏輯迴歸-Softmax-交叉熵（小航）
2019-02-27
邏輯迴歸熵
損失函式
2020-11-27
函式
統計學習：邏輯迴歸與交叉熵損失（Pytorch實現）
2022-02-14
邏輯迴歸熵PyTorch
3D高斯損失函式（1）單純損失函式
2024-06-28
3D函式
熵，交叉熵，Focalloss
2024-07-24
熵
損失函式綜述
2018-05-06
函式
Triplet Loss 損失函式
2018-04-23
函式
Pytorch 常用損失函式
2020-11-26
PyTorch函式
大白話5分鐘帶你走進人工智慧-第十七節邏輯迴歸之交叉熵損失函式概念(2)
2019-04-29
人工智慧邏輯迴歸熵函式
例項解釋NLLLoss損失函式與CrossEntropyLoss損失函式的關係
2022-07-18
函式ROS
PyTorch：損失函式loss function
2020-10-21
PyTorch函式Function
Pytorch中的損失函式
2020-10-22
PyTorch函式
TensorFlow損失函式專題
2020-04-06
函式
DDMP中的損失函式
2024-06-16
函式
深度學習基礎5:交叉熵損失函式、MSE、CTC損失適用於字識別語音等序列問題、Balanced L1 Loss適用於目標檢測
2023-04-18
深度學習熵函式
Softmax分類函式
2019-02-28
函式
邏輯迴歸損失函式
2018-04-10
邏輯迴歸函式
SSD的損失函式設計
2020-12-22
函式
聊聊損失函式1. 噪聲魯棒損失函式簡析 & 程式碼實現
2023-01-01
函式
大白話5分鐘帶你走進人工智慧-第十八節邏輯迴歸之交叉熵損失函式梯度求解過程(3)
2019-04-30
人工智慧邏輯迴歸熵函式梯度
詳解常見的損失函式
2018-07-12
函式
2.3邏輯迴歸損失函式
2020-12-16
邏輯迴歸函式
交叉熵代價函式定義及其求導推導（讀書筆記）
2019-03-04
熵函式求導筆記
資訊熵，交叉熵與KL散度
2021-06-29
熵
熵、資訊量、資訊熵、交叉熵-個人小結
2019-03-01
熵
邏輯迴歸損失函式(cost function)
2018-04-10
邏輯迴歸函式Function
焦點損失函式 Focal Loss 與 GHM
2020-08-01
函式
用於判別式人臉驗證的L2-約束softmax損失
2018-08-02
邏輯迴歸：損失函式與梯度下降
2018-04-10
邏輯迴歸函式梯度
人臉識別損失函式疏理與分析
2020-08-04
函式
理解神經網路的不同損失函式
2019-06-21
神經網路函式

圖示Softmax及交叉熵損失函式

Softmax函式

交叉熵：

相關文章