Machine Learning 學習筆記 03 最小二乘法、極大似然法、交叉熵

小能日記發表於2022-04-07

原文網址 : https://www.cnblogs.com/linxiaoxu/p/16111397.html

損失函式

神經網路裡的標準和人腦標準相比較相差多少的定量表達。

最小二乘法

首先要搞明白兩個概率模型是怎麼比較的。有三種思路，最小二乘法、極大似然估計，交叉熵

當一張圖片人腦判斷的結果是 $x1$，神經網路判斷的結果是 $y1$，直接把它們相減 $\left|x_{1}-y_{1}\right|$ 就是他們相差的範圍。我們將多張圖片都拿過來判斷加起來，當最終值最小的時候，$\min \sum_{i=1}^{n}\left|x_{i}-y_{i}\right|$ 就可以認定兩個模型近似。

但是絕對值在定義域內不是全程可導的，所以可以求平方 $\min \sum_{i=1}^{n}\left(x_{i}-y_{i}\right)^{2}$

就這是最小二乘法，但是隻用它判斷兩個概率模型差別有多少，去作為損失函式會比較困難。所以引入極大似然估計

極大似然估計

似然值是真實的情況已經發生，我們假設它有很多模型，在這個概率模型下，發生這種情況的可能性就叫似然值。

挑出似然值最大的，那可能性也就越高，此時的概率模型應該是與標準模型最接近的。

\[\begin{array}{l} P\left(C_{1}, C_{2}, C_{3}, \ldots, C_{10} \mid \theta\right) \\ P\left(x_{1}, x_{2}, x_{3}, x_{4}, \ldots, x_{n} \mid W, b\right) \end{array} \]

$\theta$ 是拋硬幣的概率模型，$W,b$ 是神經網路的概率模型。前者結果是硬幣是正還是反，後者結果是圖片到底是不是貓。

\[\begin{array}{l} P\left(x_{1}, x_{2}, x_{3}, x_{4}, \ldots, x_{n} \mid W, b\right) \\ =\prod_{i=1}^{n} P\left(x_{i} \mid W, b\right) \end{array} \]

在神經網路是這樣的引數下，輸入的照片如果是貓概率是多少、如果不是貓概率是多少，所有圖片判斷後，相乘得到的值就是似然值。取到極大似然值就是最接近的值。

但在訓練的時候 $W、b$ 無論輸入什麼樣的照片都是固定的值，如果我們都用貓的照片來確定的話標籤都是$1$，那就沒有辦法進行訓練，理論可行卻沒有操作性。但是我們還可以利用條件，訓練神經網路的時候既可以得到 $x_{i}$ 也可以得到 $y_{i}$， $y_{i}$ 的輸出結果依賴 $W,b$ 。每次輸入照片不一樣，$y_{i}$ 的結果也就不一樣。

\[\begin{array}{l} =\prod_{i=1}^{n} P\left(x_{i} \mid W, b\right) \\ =\prod_{i=1}^{n} P\left(x_{i} \mid y_{i}\right) \end{array} \]

$x_{i}$ 的取值是 $0、1$ ，符合二項伯努利分佈，概率分佈表示式為

\[f(x)=p^{x}(1-p)^{1-x}=\left\{\begin{array}{ll} p, & x=1 \\ 1-p, & x=0 \end{array}\right. \]

$x=1$ 就是圖片為貓的概率。而 $p$ 就是 $y_{i}$ (神經網路認定是貓的概率)，將其帶入替換 $ P\left(x_{i} \mid y_{i}\right)$

\[=\prod_{i=1}^{n} y_{i}^{x_{i}}\left(1-y_{i}\right)^{1-x_{i}} \]

我們更喜歡連加，在前面加 $log$ ，並化簡

\[\begin{array}{l} \log \left(\prod_{i=1}^{n} y_{i}^{x_{i}}\left(1-y_{i}\right)^{1-x_{i}}\right) \\ =\sum_{i=1}^{n} \log \left(y_{i}^{x_{i}}\left(1-y_{i}\right)^{1-x_{i}}\right) \\ =\sum_{i=1}^{n}\left(x_{i} \cdot \log y_{i}+\left(1-x_{i}\right) \cdot \log \left(1-y_{i}\right)\right) \end{array} \]

所以，求極大似然值，就是求如下公式

\[\begin{array}{l} \max \left(\sum_{i=1}^{n}\left(x_{i} \cdot \log y_{i}+\left(1-x_{i}\right) \cdot \log \left(1-y_{i}\right)\right)\right) \\ \min -\left(\sum_{i=1}^{n}\left(x_{i} \cdot \log y_{i}+\left(1-x_{i}\right) \cdot \log \left(1-y_{i}\right)\right)\right) \end{array} \]

複習一下對數

$\log _{a}(1)=0 $
$ \log _{a}(a)=1 $
$負數與零無對數$
$\log _{a} b * \log _{b} a=1$
$ \log _{a}(M N)=\log _{a} M+\log _{a} N $
$\log _{a}(M / N)=\log _{a} M-\log _{a} N $
$ \log _{a} M^{n}=n \log _{a} M(\mathrm{M}, \mathrm{N} \in \mathrm{R}) $
$ \log _{a^{n}} M=\frac{1}{n} \log _{a} M $
$a^{\log _{a} b}=b $

交叉熵

要想直接比較兩個模型，前提是兩個模型型別是同一種，否則就不能公度。概率模型如果想要被統一衡量，我們需要引入熵（一個系統裡的混亂程度）。

資訊量

我們想獲取資訊量的函式，就要進行定義。並找尋能讓體系自洽的公式。

\[{f}({x}):=\text { 資訊量 }\\ {f}( 阿根廷奪冠 )={f}( 阿根廷進決賽 )+{f}( 阿根廷贏了決賽 ) \\ f\left(\frac{1}{8}\right)=f\left(\frac{1}{4}\right)+f\left(\frac{1}{2}\right)\\ P(\text { 阿根廷奪冠 })=P(\text { 阿根廷進決賽 }) \cdot {P} \text { (阿根廷贏了決賽 })\\ \]

將上面的第四條公式帶入第三條得到如下第二條。為了使資訊量定義能讓體系自洽，我們給定定義 $log$，這樣符合相乘變相加的形式。

\[\begin{array}{c} f(x):=? \log _{?} x \\ f\left(x_{1} \cdot x_{2}\right)=f\left(x_{1}\right)+f\left(x_{2}\right) \end{array} \]

為了符合我們最直觀的感覺，因為概率越小，資訊量越大。而 $log$ 函式單調遞增，我們轉換方向。

\[\begin{array}{c} f(x):=-\log _{2} x \\ f\left(x_{1} \cdot x_{2}\right)=f\left(x_{1}\right)+f\left(x_{2}\right) \end{array} \]

看計算機裡多少位資料，給計算機輸入一個16位資料，輸入之前隨便取的值是 $1/2^16$ 的概率，輸入之後的概率直接變為了 $1$ 。資訊量就是 $16$ 位元。

資訊量可以理解為一個事件從原來不確定到確定它的難度有多大，資訊量大，難度高。

熵不是衡量某個具體事件，而是整個系統的事件，一個系統的從不確定到確定難度有多大

它們都是衡量難度，單位也可以一樣都是位元。

系統熵的定義

將上方對系統貢獻的資訊量可以看成是期望的計算。

KL散度

KL散度絕對是大於等於$0$的，當$Q、P$相等的時候等於$0$，不相等的時候一定大於$0$

為了讓$Q、P$兩個模型接近，所以必須使交叉熵最小

交叉熵中 $m$ 是兩個概率模型裡事件更多的那個，換成 $n$ 是圖片數量。

對$m$選擇的解釋：假如$p$的事件數量是$m$，$q$的事件數量是$n$，$m＞n$，那麼寫成$∑$求和，用較大的$m$做上標。就可以分解為，$∑1到n+∑n+1到m$，那麼對於$q$來說，因為$q$的數量只有$n$，那麼對應的$q$的部分$∑n+1到m$都等於$0$。

\[\begin{array}{l} \boldsymbol{H}(\boldsymbol{P}, \boldsymbol{Q}) \\ =\sum_{i=1}^{m} p_{i} \cdot\left(-\log _{2} q_{i}\right) \\ =\sum_{i=1}^{n} x_{i} \cdot\left(-\log _{2} q_{i}\right) \\ =-\sum_{i=1}^{n}\left(x_{i} \cdot \log _{2} y_{i}+\left(1-x_{i}\right) \cdot \log _{2}\left(1-y_{i}\right)\right) \end{array} \]

$P$ 是基準，要被比較的概率模型，我們要比較的人腦模型，要麼完全是貓要麼不是貓。最後我們推匯出來，公式跟極大似然推匯出來的是一樣的。但是從物理角度去看兩者是有很大不同的，只是形式上的一樣。

極大似然法裡的 $log$ 使我們按習慣引入的，把連乘換成相加。而交叉熵的 $log$ 是寫在資訊量定義裡的，以 $2$ 為底，計算出來的單位是位元，是有量綱的。
極大似然法求的是最大值，我們按習慣求最小值。而交叉熵負號是寫在定義裡的。

熵、交叉熵及似然函式的關係
2019-07-31
熵函式
Machine Learning 機器學習筆記
2018-03-27
Mac機器學習筆記
損失函式：最小二乘法與極大似然估計法
2021-08-02
函式
pytorch使用交叉熵訓練模型學習筆記
2024-06-17
PyTorch熵模型筆記
極大似然估計
2018-09-07
AI學習筆記之——如何理解機器學習(Machine Learning)
2018-07-23
AI筆記機器學習Mac
Auto Machine Learning 自動化機器學習筆記
2019-08-13
Mac機器學習筆記
線性迴歸，邏輯迴歸的學習（包含最小二乘法及極大似然函式等）
2018-03-27
邏輯迴歸函式
機器學習--白板推導系列筆記2 概率：高斯分佈之極大似然估計
2019-04-15
機器學習筆記
機器學習《Machine Learning》筆記--偏差（Bias）和方差（Variance）
2018-06-05
機器學習Mac筆記
Mathematics for Machine Learning--學習筆記(線性代數篇)
2020-10-23
Mac筆記
Machine Learning Yearning 要點筆記
2018-10-24
Mac筆記
[筆記]極大似然估計、最大後驗概率、貝葉斯估計
2020-11-07
筆記
【機器學習基礎】熵、KL散度、交叉熵
2018-09-27
機器學習熵
從極大似然估計的角度理解深度學習中loss函式
2019-06-10
深度學習函式
如何通俗地理解概率論中的「極大似然估計法」?
2020-11-26
極大似然估計理解與應用
2019-03-11
熵，交叉熵，Focalloss
2024-07-24
熵
吳恩達《Machine Learning》精煉筆記 1：監督學習與非監督學習
2020-11-28
吳恩達Mac筆記
《深度學習》PDF Deep Learning: Adaptive Computation and Machine Learning series
2019-12-17
深度學習APTMac
Machine Learning（機器學習）之二
2018-10-25
Mac機器學習
Machine Learning（機器學習）之一
2019-02-27
Mac機器學習
使用Octave來學習Machine Learning(二)
2019-02-27
Mac
jQuery學習筆記03
2020-09-27
jQuery筆記
基於極大似然估計方法的diffusion
2024-07-11
深度學習 DEEP LEARNING 學習筆記（一）
2020-07-24
深度學習筆記
深度學習 DEEP LEARNING 學習筆記（二）
2020-07-24
深度學習筆記
Matlab機器學習3（Machine Learning Onramp）
2020-10-27
Matlab機器學習Mac
吳恩達《Machine Learning》精煉筆記 6：關於機器學習的建議
2021-01-16
吳恩達Mac筆記機器學習
【論文筆記】Neural machine translation by jointly learning to align and translate
2018-12-02
筆記Mac
吳恩達《Machine Learning》精煉筆記 12：大規模機器學習和圖片文字識別 OCR
2021-03-02
吳恩達Mac筆記機器學習
讀寫給大家的AI極簡史筆記03深度學習
2024-07-21
AI筆記深度學習
【動手學深度學習】第三章筆記：線性迴歸、SoftMax 迴歸、交叉熵損失
2023-04-09
深度學習筆記熵
極大似然估計思想的最簡單解釋
2018-08-06
強化學習-學習筆記8 | Q-learning
2022-07-07
強化學習筆記
吳恩達《Machine Learning》Jupyter Notebook 版筆記釋出！
2019-12-15
吳恩達Mac筆記
Python 學習筆記-03-01-三大結構-分支
2019-03-16
Python筆記
Git極簡學習筆記
2021-09-09
Git筆記