損失函式：最小二乘法與極大似然估計法

__Simon發表於2021-08-02

原文網址 : https://www.cnblogs.com/--Simon/p/15091695.html

函式

損失函式：最小二乘法與極大似然估計法

最小二乘法

對於判斷輸入是真是假的神經網路：

\[\hat y =sigmod\bigg (\sum_i (w_i\cdot x_i + b_i) \bigg) \]

為了比較單次結果與標籤\(y\)之間有多少的差距，可以直觀的得到：

\[min\ |y-\hat y| \]

當同時有\(n\)次結果時：

\[min\ \sum_{j=1}^n|y_i-\hat y_i| \]

但是絕對值在其定義域內不完全可導，因此可改為如下形式，且不改變大小關係：

\[min\ \frac{1}{2} \sum_{j=1}^n (y_i-\hat y_i)^2 \]

吳恩達老師在課上說：用最小二乘法做梯度下降法會特別麻煩，所以不建議使用，具體為什麼？

極大似然估計法

用來根據現實世界的事件發生頻率，來反推出發生這些事件最可能的概率模型是什麼樣子。

假設對於投硬幣來說，有三種硬幣，其正反面重量不同，其投的正面的概率\(\theta\)分別為\(0.1，0.7，0.8\)。某一時刻某人挑選了一種硬幣，並且投了10次硬幣\(C_i\)，出現\(7\)次正，\(3\)次反。如何確定此人所挑選是哪種硬幣？

可以分別計算選擇不同種硬幣時發生7次正，3次反的可能性有多大，即：

\[\begin{align} L &= P(C_1,C_2,\dots, C_{10}|\theta)\\ &= \prod_{i=1}^{10}P(C_i|\theta)\\ &= \prod_{i=1}^{10}\theta ^{[C_i=1]}\cdot(1-\theta)^{[C_i=0]} \end{align} \]

當\(\theta =0.1\)時：

\[L=(0.1)^7\cdot (0.9)^3 =7.29\times 10^{-8} \]

當\(\theta =0.7\)時：

\[L=(0.7)^7\cdot (0.3)^3 =2.22\times 10^{-3} \]

當\(\theta =0.8\)時：

\[L=(0.8)^7\cdot (0.2)^3 =1.68\times 10^{-3} \]

可以得到此人所選的硬幣最可能是\(\theta =0.7\)的硬幣。這就是基本的似然估計。

而對於單個輸出神經網路中，給出的一張張圖片，便可以類比為丟擲的硬幣，硬幣的正反就相當於人對於圖片的標註結果（是或不是）。而神經網路要做的事，就是根據所給的圖片，求得這些圖片所表示的最可能的概率模型是什麼樣子。

對於硬幣來說每次輸入的硬幣是相同的，因此對於每一次投擲\(i\)，其\(\theta_i=0.1\)，而對於神經網路中的圖片來說，他們都是互不相同的，其\(\theta_i = Network_{w,b}(x_i)\)

\[\begin{align} L &= P(x_1, x_2, \dots, x_n|W,b)\\ &=\prod_{i=1}^nP(x_i|W,b)\\ &=\prod_{i=1}^nP(x_i|\theta_i)\\ &=\prod_{i=1}^{n}\theta_i ^{[x_i=1]}\cdot(1-\theta_i)^{[x_i=0]} \end{align} \]

因為\(x_i\)要麼是為真，要麼為假，因此又等於：

\[\begin{align} L &=\prod_{i=1}^n\theta_i^{x_i}\cdot (1-\theta_i)^{1-x_i}\\ log(L) &= \sum_{i=1}^n x_i\cdot log(\theta_i) +(1-x_i)\cdot log(1-\theta_i) \end{align} \]

因此我們做的就是最大化\(log(L)\)，即：

\[\begin{align} max\; log(L)&=max\;\sum_{i=1}^n x_i\cdot log(\theta_i) +(1-x_i)\cdot log(1-\theta_i)\\ &=min\;-\sum_{i=1}^n x_i\cdot log(\theta_i) +(1-x_i)\cdot log(1-\theta_i)\\ \end{align} \]

其實\(\theta_i\)又可理解為神經網路的輸出即\(\hat y_i\)，而\(x_i\)可理解為標籤\(y_i\)，因此又可以寫成：

\[min\;-\sum_{i=1}^n y_i\cdot log(\hat y_i) +(1-y_i)\cdot log(1-\hat y_i)\\ \]

有沒有聯想到什麼？

對於多分類\(m\)神經網路模型，\(\theta_i=Network_{W,b}(x_i)\)就是一個向量，同時為了便於書寫，將\(x_i\)處理成\(one-hot\)向量，則可由公式\(6\)往下推導：

\[\begin{align} L &=\prod_{i=1}^nP(x_i|\theta_i)\\ &=\prod_{i=1}^n\prod_{j=1}^m \theta_{ij}^{x_{ij}}\\ log(L)&=\sum_{i=1}^n\sum_{j=1}^mx_{ij}\cdot log(\theta_{ij})\\ \end{align} \]

推薦詳細講解視訊：https://www.bilibili.com/video/BV1Y64y1Q7hi

極大似然估計
2018-09-07
極大似然估計理解與應用
2019-03-11
從極大似然估計的角度理解深度學習中loss函式
2019-06-10
深度學習函式
基於極大似然估計方法的diffusion
2024-07-11
如何通俗地理解概率論中的「極大似然估計法」?
2020-11-26
從DDPM到DDIM (一) 極大似然估計與證據下界
2024-07-23
極大似然估計思想的最簡單解釋
2018-08-06
[筆記]極大似然估計、最大後驗概率、貝葉斯估計
2020-11-07
筆記
Machine Learning 學習筆記 03 最小二乘法、極大似然法、交叉熵
2022-04-07
Mac筆記熵
線性迴歸，邏輯迴歸的學習（包含最小二乘法及極大似然函式等）
2018-03-27
邏輯迴歸函式
最大似然估計詳解
2021-06-09
【機器學習】【邏輯迴歸】代價函式為什麼用最大似然估計而不是最小二乘法？
2019-02-22
機器學習邏輯迴歸函式
最大似然估計可能因 "流形過度擬合 "而失敗
2022-04-20
損失函式
2020-11-27
函式
例項解釋NLLLoss損失函式與CrossEntropyLoss損失函式的關係
2022-07-18
函式ROS
SSD的損失函式設計
2020-12-22
函式
先驗概率後驗概率似然估計
2018-03-30
3D高斯損失函式（1）單純損失函式
2024-06-28
3D函式
機器學習--白板推導系列筆記2 概率：高斯分佈之極大似然估計
2019-04-15
機器學習筆記
損失函式綜述
2018-05-06
函式
Triplet Loss 損失函式
2018-04-23
函式
Pytorch 常用損失函式
2020-11-26
PyTorch函式
焦點損失函式 Focal Loss 與 GHM
2020-08-01
函式
熵、交叉熵及似然函式的關係
2019-07-31
熵函式
邏輯迴歸：損失函式與梯度下降
2018-04-10
邏輯迴歸函式梯度
人臉識別損失函式疏理與分析
2020-08-04
函式
PyTorch：損失函式loss function
2020-10-21
PyTorch函式Function
Pytorch中的損失函式
2020-10-22
PyTorch函式
TensorFlow損失函式專題
2020-04-06
函式
DDMP中的損失函式
2024-06-16
函式
機器學習必知概念：貝葉斯估計、最大似然估計、最大後驗估計
2018-07-02
機器學習
機器學習 - 似然函式：概念、應用與程式碼例項
2023-11-30
機器學習函式
最大似然函式和最大後驗概率區別
2020-04-06
函式
01EM演算法-大綱-最大似然估計(MLE)、貝葉斯演算法估計、最大後驗概率估計(MAP)
2018-12-22
演算法
【小白學AI】線性迴歸與邏輯迴歸（似然引數估計）
2020-08-02
AI邏輯迴歸
談談交叉熵損失函式
2019-04-12
熵函式
邏輯迴歸損失函式
2018-04-10
邏輯迴歸函式
聊聊損失函式1. 噪聲魯棒損失函式簡析 & 程式碼實現
2023-01-01
函式

損失函式：最小二乘法與極大似然估計法

損失函式：最小二乘法與極大似然估計法

最小二乘法

極大似然估計法

相關文章