熵、聯和熵與條件熵、交叉熵與相對熵是什麼呢?詳細解讀這裡有!

Charzueus發表於2020-07-29

熵是一個很常見的名詞,在物理上有重要的評估意義,自然語言處理的預備知識中,熵作為資訊理論的基本和重點知識,在這裡我來記錄一下學習的總結,並以此與大家分享。

資訊理論基本知識

1、熵

2、聯和熵與條件熵

3、互資訊

4、交叉熵與相對熵

5、困惑度

6、總結

1、熵

熵也被稱為自資訊,描述一個隨機變數的不確定性的數量。熵越大,表明不確定性越大,所包含的資訊量也越大,就說明很難去預測事件行為或者正確估值。
熵的公式定義:

解答:

 

這裡計算將相同概率的字元合並計算,結果表明什麼呢?
結果說明傳輸一個字元平均只需要2.5個位元:

字元abcdef
編碼 100 00 101 01 110 111

2、聯和熵與條件熵

聯和熵描述一對隨機變數平均所需要的資訊量。公式定義:

 與之聯絡密切的條件熵指的是:給定X的情況下,Y的條件熵為:

 

 將以上公式(1)化簡可以得到 H(X,Y)=H(X)+H(YX) 公式(4),被稱為熵的連鎖規則。

3、互資訊

熵的連鎖規則H(X,Y)=H(X)+H(YX)=H(Y)+H(XY), 所以H(X)H(XY)=H(Y)H(YX),這個差就成為互資訊,記作I(X;Y) 。

I(X;Y)YX在圖中I(X;Y)反映的是已知Y的值後X的不確定性的減少量。I(X;Y)YX。簡而言之,Y的值透露了多少關於X的資訊量。
因為H(X|X)=0,所以H(X)=H(X)-H(X|X)=I(X;X),這公式推導說明了熵也成為自資訊的概念,也說明兩個完全相互依賴的變數之間的互資訊並不是一個常量,而是取決定於它們的熵。
實際應用: 互資訊描述了兩個隨機變數之間的統計相關性,平均互資訊是非負的,在NLP中用來判斷兩個物件之間的關係,比如:根據主題類別和詞彙之間的互資訊進行特徵提取。另外在詞彙聚類、漢語自動分詞、詞義消岐、文字分類等問題有著重要用途。

4、交叉熵與相對熵

相對熵簡稱KL差異或KL距離,衡量相同時間空間裡兩個概率分佈相對差異的測度。

根據公式可知,當兩個隨機分佈完全相同時,即p=q,其相對熵為0。當兩個隨機分佈差別增加,相對熵的期望值也增大。
相對熵與互資訊的聯絡如下證明:

相對熵證明
交叉熵就是機器學習中經常提到的一種熵的計算。它到底是什麼呢?

交叉熵是衡量估計模型與真實概率分佈之間之間差異情況。
如果一個隨機變數X~p(x),q(x)為用於近似p(x)的概率分佈,則實際p與模型q之間的交叉熵定義為:

 

在設計模型q時候,目的是使交叉熵最小,這樣模型的表現更好,從而使模型更接近最真實的概率分佈p(x),一般的,當樣本足夠大時候,上面計算近似為:

5、困惑度

在設計語言模型,通常用困惑度(perplexity)來代替交叉熵衡量語言模型的好壞。

 

所以,尋找困惑度最小的模型成為模型設計的任務,通常指的是模型對於測試資料的困惑度。

6、總結

在資訊理論的熵部分,我們學到了什麼呢?開始說到,這是NLP基礎,也是入門機器學習的重要理論部分。

  1. (自資訊):描述一個隨機變數的不確定性的數量。熵越大,表明不確定性越大,所包含的資訊量也越大,就說明很難去預測事件行為或者正確估值。
  2. 聯和熵:描述一對隨機變數平均所需要的資訊量。
  3. 條件熵:給定X的情況下,通過聯和熵計算Y的條件熵,類似於條件概率思想。由此引出互資訊概念。
  4. 相對熵:簡稱KL差異或KL距離,衡量相同時間空間裡兩個概率分佈相對差異的測度,與互資訊密切相關。
  5. 交叉熵:衡量估計模型與真實概率分佈之間之間差異情況。

學習之後的一些記錄,發現這部分知識在其他方面經常提及到,卻不知其原理知識,因此做了一個簡單的總結備忘,與爾共享!

更好的閱讀體驗請轉至我的CSDN部落格哦!


我的CSDN部落格:熵、聯和熵與條件熵、交叉熵與相對熵是什麼呢?來這裡有詳細解讀!

我的部落格園:熵、聯和熵與條件熵、交叉熵與相對熵是什麼呢?詳細解讀這裡有!

————————————————
版權宣告:本文為CSDN博主「Charzous」的原創文章,遵循CC 4.0 BY-SA版權協議,轉載請附上原文出處連結及本宣告。
原文連結:https://blog.csdn.net/Charzous/article/details/107669211

相關文章