機器學習基礎 | 互相關係數和互資訊異同探討

林勝聯府發表於2021-07-12

主要闡述互相關係數和互資訊的區別和聯絡,先說結論:

  • 對於高斯分佈,兩者是等價的,且存在轉換公式,當\(X\)\(Y\)互相關係數為零時,兩者相互獨立,且互資訊為零;當互相關係數為\(\pm1\)時,兩者完全相關且互資訊為無窮大,轉換公式:

    \[I(X,Y)=-\frac{1}{2}\log(1-r^2) \]

  • 一般情形,互相關係數只是反應了兩者之間的線性相關關係,而互資訊則直接從概率分佈角度考慮變數之間的相互獨立性,相互獨立一定不相關,不相關不一定相互獨立

互相關係數

互相關係數是研究變數之間 線性相關 程度的量,定義公式如下:

\[r(X,Y)=\frac{Cov(X,Y)}{\sqrt{Var[X]Var[Y]}} \]

其中:\(Cov(X,Y)\)\(X\)\(Y\)之間的協方差,\(Var[X]\)\(X\)的方差,\(Var[Y]\)為Y的方差。

  • \(Cov(X,Y)=E[(X-E[X])(Y-E(Y))]=E[XY]-E[X]E[Y]\)
  • \(Var[X]=E[(X-E[X])^2]=E[X^2]-E[X]^2\)

互相關係數的基本性質如下:

  1. \(|r(X,Y)|\leq 1\)

  2. \(r(X,Y)>0\),則兩者之間是正相關;若\(r(X,Y)<0\),則兩者之間是負相關

  3. \(X\)\(Y\)不相關,則\(r(X,Y)=0\);反過來,若\(r(X,Y)=0\),則\(X\)\(Y\)不相關,這裡的不相關指的是兩者之間不存線上性關係,不能排除其他關係。

  4. \(X\)\(Y\)相互獨立,則\(r(X,Y)=0\);反過來,若\(r(X,Y)=0\),只能表明\(X\)\(Y\)不相關,兩者之間並不一定相互獨立。

注:

  • 相互獨立指的是\(p(x,y)=p(x)p(y), \forall x,y\)
  • 相互獨立一定不相關,不相關不一定相互獨立,例如\(x=\cos\alpha,Y=\sin\alpha\),兩者協方差為零,但是兩者不獨立。
  • 對於正態分佈,不相關和獨立是等價的。

互相關係數的另一種表示式:

\[\lambda(X,Y)=\sqrt{1-\frac{det(C(Z))}{det(C(X))det(C(Y))}} \]

其中:\(Z=(X,Y),C(Z)=E[(Z-E[Z])\cdot(Z-E[Z])^T]\)是高維變數的協方差矩陣,若\(X\)\(Y\)都是一維向量,則

  • \(C(X)=Var[X]\)\(C(Y)=Var[Y]\)
  • \(det(C(Z))=Var[X]Var[Y]-Cov(X,Y)^2\)

因此:\(\mathbf{\lambda(X,Y)=|r(x,y)|}\)

互資訊

兩個變數的互資訊的定義如下:

\[I(X,Y)=\int p(x,y)\log\frac{p(x,y)}{p(x)p(y)}dxdy \]

定理:\(Z=(X,Y)\)服從高斯分佈,則

\[I(X,Y)=-\frac{1}{2}\log\left(\frac{det(C(Z))}{det(C(X)det(C(Y)))}\right) \]

證明: 只須證明如下兩點即可:

  1. \(I(X,Y)=H(X)+H(Y)-H(X,Y)\)

  2. 多元正態分佈的資訊熵:設\(X_1,X_2,...,X_n\)服從均值為\(\mu\),協方差矩陣為\(K\)的果園正態分佈,則

    \[H(X_1,X_2,...,X_n)=\frac{1}{2}\log[(2\pi e)^ndet(K)] \]

上述兩點的證明按照互資訊的定義和正態分佈的概率密度函式直接推導即可,這裡不再重複,感興趣的讀者可以查閱本文的參考文獻。根據上述兩點,我們有

\[\begin{aligned} I(X,Y)&=\frac{1}{2}\log[(2\pi e)det(C(X))]+\frac{1}{2}\log[(2\pi e)det(C(Y))]-\frac{1}{2}\log[(2\pi e)^2det(C(Z))]\\ &=-\frac{1}{2}\log\left(\frac{det(C(Z))}{det(C(X)det(C(Y)))}\right) \end{aligned} \]

證畢。

根據上述定理以及\(\lambda(X,Y)\),可以定義一個度量\(\Lambda(X,Y)\)

\[\Lambda(X,Y)=\sqrt{1-e^{2I(X,Y)}} \]

注: \(\Lambda(X,Y)\)具有如下性質:

  1. \(\Lambda(X,Y)\)是互資訊的一種歸一化,取值範圍從\([0,\infty]\)歸一化到了\([0,1]\),且\(\Lambda(X,Y)\)同時包含了變數之間的線性關係和非線性關係
  2. \((X,Y)\)服從高斯分佈時,\(\Lambda(X,Y)=\lambda(X,Y)\),即其此時和互相關係數等價
  3. 若令\(D_{MI}(X,Y)=\Lambda(X,Y)-\lambda(X,Y)\),則\(D_{MI}\)刻畫了變數之間的非線性關係,可用於指示變數之間是否存在非線性關係,分析系統的非線性動力學變化。

兩者的關係

根據上面的分析很容易得到兩者的關係如下:

  • 對於高斯分佈,兩者是等價的,且存在轉換公式,當\(X\)\(Y\)互相關係數為零時,兩者相互獨立,且互資訊為零;當互相關係數為\(\pm1\)時,兩者完全相關且互資訊為無窮大,轉換公式:

    \[I(X,Y)=-\frac{1}{2}\log(1-r^2) \]

  • 一般情形,互相關係數只是反應了兩者之間的線性相關關係,而互資訊則直接從概率分佈角度考慮變數之間的相互獨立性,相互獨立一定不相關,不相關不一定相互獨立

更為重要的是:

  • \(D_{MI}(X,Y)=\Lambda(X,Y)-\lambda(X,Y)\) 刻畫了變數之間的非線性關係,可用於指示變數之間是否存在非線性關係,分析系統的非線性動力學變化。

參考文獻

相關文章