歸一化(softmax)、資訊熵、交叉熵

菩提樹下的楊過發表於2017-11-15

機器學習中經常遇到這幾個概念，用大白話解釋一下：

一、歸一化

把幾個數量級不同的資料，放在一起比較（或者畫在一個數軸上），比如：一條河的長度幾千甚至上萬km，與一個人的高度1.7m，放在一起，人的高度幾乎可以被忽略，所以為了方便比較，縮小他們的差距，但又能看出二者的大小關係，可以找一個方法進行轉換。

另外，在多分類預測時，比如：一張圖，要預測它是貓，或是狗，或是人，或是其它什麼，每個分類都有一個預測的概率，比如是貓的概率是0.7，狗的概率是0.1，人的概率是0.2... , 概率通常是0到1之間的數字，如果我們算出的結果，不在這個範圍，比如：700，10，2 ，甚至負數，這樣就需要找個方法，將其轉換成0-1之間的概率小數，而且通常為了滿足統計分佈，這些概率的和，應該是1。

最常用的處理方法，就是softmax，原理如上圖（網上淘來的）。

點選看原圖

類似的softmax(1)=0.12，softmax(-3)=0，這個方法在數學上沒毛病，但是在實際運用中，如果目標值x很大，比如10000，那e的10000次方，很可能超出程式語言的表示範圍，所以通常做softmax前，要對資料做一下預處理（比如：對於分類預測，最簡單的辦法，所有訓練集整體按比例縮小）

二、資訊熵

熱力學中的熱熵是表示分子狀態混亂程度的物理量，而且還有一個所謂『熵增原理』，即：宇宙中的熵總是增加的，換句話說，分子狀態總是從有序變成無序，熱量總是從高溫部分向低溫部分傳遞。夏農借用了這個概念，用資訊熵來描述信源的不確定度。

簡單點說，一個資訊源越不確定，裡面蘊含的資訊量越大。舉個例子：吳京《戰狼2》大獲成功後，說要續拍《戰狼3》，但是沒說誰當女主角，於是就有各種猜測，各種可能性，即：資訊量很大。但是沒過多久，吳京宣佈女主角確定後，大家就不用再猜測女主角了，資訊量相比就沒這麼大了。

這個例子中，每種猜測的可能性其實就是概率，而資訊量如何衡量，可以用下面的公式來量化計算，算出來的值即資訊熵：

這裡p為概率，最後算出來的結果通常以bit為單位。

舉例：拿計算機領域最常現的編碼問題來說，如果有A、B、C、D這四個字元組成的內容，每個字元出現的概率都是1/4，即概率分佈為{1/4，1/4，1/4，1/4}，設計一個最短的編碼方案來表示一組資料，套用剛才的公式：

即：2個bit，其實不用算也能想明白，如果第1位0表示A，1表示B；第2位0表示C，1表示D，2位編碼搞定。

如果概率變了，比如A、B、C、D出現的概率是{1，1，1/2，1/2}，即：每次A、B必然出現，C、D出現機會各佔一半，這樣只要1位就可以了。1表示C，0表示D，因為AB必然出現，不用表示都知道肯定要附加上AB，套用公式算出來的結果也是如此。

三、交叉熵

這是公式定義，x、y都是表示概率分佈（注：也有很多文章喜歡用p、q來表示），這個東西能幹嘛呢？

假設x是正確的概率分佈，而y是我們預測出來的概率分佈，這個公式算出來的結果，表示y與正確答案x之間的錯誤程度（即：y錯得有多離譜），結果值越小，表示y越準確，與x越接近。

比如：

x的概率分佈為：{1/4 ，1/4，1/4，1/4}，現在我們通過機器學習，預測出來二組值：

y1的概率分佈為 {1/4 , 1/2 , 1/8 , 1/8}

y2的概率分佈為 {1/4 , 1/4 , 1/8 , 3/8}

從直覺上看，y2分佈中，前2項都100%預測對了，而y1只有第1項100%對，所以y2感覺更準確，看看公式算下來，是不是符合直覺：

對比結果，H(x,y1)算出來的值為9/4，而H(x,y2)的值略小於9/4，根據剛才的解釋，交叉熵越小，表示這二個分佈越接近，所以機器學習中，經常拿交叉熵來做為損失函式(loss function)。

參考文章：

https://www.zhihu.com/question/23765351
https://www.zhihu.com/question/41252833/answer/108777563
https://www.zhihu.com/question/22178202

熵、資訊量、資訊熵、交叉熵-個人小結
2019-03-01
熵
ML-邏輯迴歸-Softmax-交叉熵（小航）
2019-02-27
邏輯迴歸熵
資訊熵，交叉熵與KL散度
2021-06-29
熵
熵，交叉熵，Focalloss
2024-07-24
熵
圖示Softmax及交叉熵損失函式
2018-09-14
熵函式
資訊熵概念隨筆——資訊熵、資訊的熵
2018-07-24
熵
softmax迴歸——原理、one-hot編碼、結構和運算、交叉熵損失
2021-08-21
熵
資訊熵（夏農熵）
2020-10-11
熵
資訊理論之從熵、驚奇到交叉熵、KL散度和互資訊
2023-04-15
熵
交叉熵損失CrossEntropyLoss
2023-02-20
熵ROS
熵、交叉熵及似然函式的關係
2019-07-31
熵函式
熵、聯和熵與條件熵、交叉熵與相對熵是什麼呢？詳細解讀這裡有！
2020-07-29
熵
【動手學深度學習】第三章筆記：線性迴歸、SoftMax 迴歸、交叉熵損失
2023-04-09
深度學習筆記熵
ML-熵、條件熵、資訊增益
2019-03-29
熵
【機器學習基礎】熵、KL散度、交叉熵
2018-09-27
機器學習熵
Tensorflow-交叉熵&過擬合
2021-01-28
熵
談談交叉熵損失函式
2019-04-12
熵函式
關於交叉熵的個人理解
2019-02-18
熵
Python | 資訊熵 Information Entropy
2024-03-09
Python熵ORM
近似熵-樣本熵-多尺度熵
2020-08-23
熵
統計學習：邏輯迴歸與交叉熵損失（Pytorch實現）
2022-02-14
邏輯迴歸熵PyTorch
夏農熵-互資訊-entropy
2024-10-09
熵
pytorch使用交叉熵訓練模型學習筆記
2024-06-17
PyTorch熵模型筆記
交叉熵、KL 散度 | 定義與相互關係
2024-07-25
熵
資訊熵相關知識總結
2018-12-18
熵
最大熵模型
2018-03-06
熵模型
熵增定律
2024-07-09
熵
Consul的反熵
2019-08-14
熵
06_邏輯迴歸演算法和最大熵模型
2020-06-01
邏輯迴歸演算法熵模型
2024熵密杯wp
2024-10-07
熵
重新理解熵編碼
2024-06-26
熵
交叉熵代價函式定義及其求導推導（讀書筆記）
2019-03-04
熵函式求導筆記
[熵值] 解題報告
2024-10-18
熵
0815鮮花——熵增定律
2024-08-15
熵
TensorFlow筆記-06-神經網路優化-損失函式,自定義損失函式,交叉熵
2018-09-12
筆記神經網路優化函式熵
Machine Learning 學習筆記 03 最小二乘法、極大似然法、交叉熵
2022-04-07
Mac筆記熵
熵不起得隨機數
2020-08-19
熵隨機
大白話5分鐘帶你走進人工智慧-第十七節邏輯迴歸之交叉熵損失函式概念(2)
2019-04-29
人工智慧邏輯迴歸熵函式
RIME：用交叉熵 loss 大小分辨 preference 是否正確 + 內在獎勵預訓練 reward model
2024-07-25
熵

歸一化(softmax)、資訊熵、交叉熵

相關文章