https://zhuanlan.zhihu.com/p/149186719
夏農首次提出熵的定義,目的尋找一種高效/無損地編碼資訊的方法:以編碼後資料的平均長度來衡量高效性,平均長度越小越高效;同時還需滿足“無損”的條件,即編碼以後不能呢個有原始資訊的丟失。所以熵的定義是:無損編碼事件資訊的最小平均編碼長度。
熵的計算:
假設一個資訊事件有8種可能狀態(用N表示),假設各個狀態等可能性,需要多少位的二進位制來編碼這8個值呢?
計算公式: log28=3
每種狀態的可能性P=1/N
log2N=-log21/N=log2P
計算平均最小長度(熵):Entropy=ΣP(xi)log2P(xi)
熵是理論上的平均最小編碼長度,所以交叉熵只可能大於等於熵
交叉熵用P,Q表示 H(P,Q), P為真實機率分佈,Q為預測機率
H(P1, Q1)=-ΣP1(i)log2Q1(i)