通俗解釋協方差與相關係數

紅色石頭發表於2018-08-22

什麼是協方差(Covariance)?

協方差表示的是兩個變數的總體的誤差,這與只表示一個變數誤差的方差不同。 如果兩個變數的變化趨勢一致,也就是說如果其中一個大於自身的期望值,另外一個也大於自身的期望值,那麼兩個變數之間的協方差就是正值。 如果兩個變數的變化趨勢相反,即其中一個大於自身的期望值,另外一個卻小於自身的期望值,那麼兩個變數之間的協方差就是負值。

以上是某百科的解釋。等等!是不是還是覺得比較晦澀難懂呢?對於非理工科的小白來說,如何清晰、形象地理解協方差和相關係數的數學概念呢?沒關係,今天紅色石頭就通過形象生動的例子,通俗易懂地給大家來講一講協方差與相關係數。

1. 協方差是怎麼來的?

簡單地來說,協方差就是反映兩個變數 X 和 Y 的相互關係。這種相互關係大致分為三種:正相關、負相關、不相關。

什麼是正相關呢?例如房屋面積(X)越大,房屋總價(Y)越高,則房屋面積與房屋總價是正相關的;

什麼是負相關呢?例如一個學生打遊戲的時間(X)越多,學習成績(Y)越差,則打遊戲時間與學習成績是負相關的;

什麼是不相關呢?例如一個人皮膚的黑白程度(X)與他的身體健康程度(Y)並無明顯關係,所以是不相關的。

我們先來看第一種情況,令變數 X 和變數 Y 分別為:

X = [11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30]

Y = [12 15 17 21 22 21 18 23 26 25 22 28 24 28 30 33 28 34 36 35]

在座標上描繪出 X 和 Y 的聯合分佈:

顯然,Y 在整體趨勢上是隨著 X 的增加而增加的,即 Y 與 X 的變化是同向的。這種情況,我們就稱 X 與 Y 是正相關的。

我們再來看第二種情況,令變數 X 和變數 Y 分別為:

X = [11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30]

Y = [35 35 29 29 28 28 27 26 26 23 21 22 25 19 16 19 20 16 15 16]

在座標上描繪出 X 和 Y 的聯合分佈:

顯然,Y 在整體趨勢上是隨著 X 的增加而減少的,即 Y 與 X 的變化是反向的。這種情況,我們就稱 X 與 Y 是負相關的。

我們再來看第三種情況,令變數 X 和變數 Y 分別為:

X = [11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30]

Y = [16 16 28 17 20 26 20 17 21 15 12 29 24 25 16 15 21 13 17 25]

在座標上描繪出 X 和 Y 的聯合分佈:

顯然,Y 在整體趨勢上與 X 的並無正相關或者負相關的關係。這種情況,我們就稱 X 與 Y 是不相關的。

回過頭來,我們來看 X 與 Y 正相關的情況,令 EX、EY 分別是 X 和 Y 的期望值。什麼是期望呢?在這裡我們可以把它看成是平均值,即 EX 是變數 X 的平均值,EY 是變數 Y 的平均值。把 EX 和 EY 在圖中表示出來得到下面的圖形:

上圖中,整個區域被 EX 和 EY 分割成 I、II、III、IV 四個區域,且 X 和 Y 大部分分佈在 I、III 區域內,只有少部分分佈在 II、IV 區域內。

在區域 I 中,滿足 X>EX,Y>EY,則有 (X-EX)(Y-EY)>0;

在區域 II 中,滿足 X<EX,Y>EY,則有 (X-EX)(Y-EY)<0;

在區域 III 中,滿足 X<EX,Y<EY,則有 (X-EX)(Y-EY)>0;

在區域 IV 中,滿足 X>EX,Y<EY,則有 (X-EX)(Y-EY)<0。

顯然,在區域 I、III 中,(X-EX)(Y-EY)>0;在區域 II、IV 中,(X-EX)(Y-EY)<0。而 X 和 Y 正相關時,資料大部分是分佈在 I、III 區域內,只有少部分分佈在 II、IV 區域。因此,從平均角度來看,正相關滿足:

E(X-EX)(Y-EY)>0

上式表示的是 (X-EX)(Y-EY) 的期望大於零,即 (X-EX)(Y-EY) 的平均值大於零。

然後,再來看 X 和 Y 負相關的情況:

上圖中,X 和 Y 大部分分佈在 II、IV 區域內,只有少部分分佈在 I、III 區域內。

同樣,在區域 I、III 中,(X-EX)(Y-EY)>0;在區域 II、IV 中,(X-EX)(Y-EY)<0。而 X 和 Y 負相關時,資料大部分是分佈在 II、IV 區域內,只有少部分分佈在 I、III 區域。因此,從平均角度來看,負相關滿足:

E(X-EX)(Y-EY)<0

上式表示的是 (X-EX)(Y-EY) 的期望小於零,即 (X-EX)(Y-EY) 的平均值小於零。

最後,再來看 X 和 Y 不相關的情況:

上圖中,X 和 Y 在 I、II、III、IV 區域內近似均勻分佈。

同樣,在區域 I、III 中,(X-EX)(Y-EY)>0;在區域 II、IV 中,(X-EX)(Y-EY)<0。而 X 和 Y 不相關時,資料在各區域內均勻分佈,從平均角度來看,不相關滿足:

E(X-EX)(Y-EY)=0

上式表示的是 (X-EX)(Y-EY) 的期望等於零,即 (X-EX)(Y-EY) 的平均值等於零。

綜上所述,我們得到以下結論:

  • 當 X 和 Y 正相關時:E(X-EX)(Y-EY)>0
  • 當 X 和 Y 負相關時:E(X-EX)(Y-EY)<0

  • 當 X 和 Y 不相關時:E(X-EX)(Y-EY)=0

因此,我們就引出了協方差的概念,它是表示 X 和 Y 之間相互關係的數字特徵。我們定義協方差為:

Cov=E(X-EX)(Y-EY)

根據之前討論的結果,

  • 當 Cov(X,Y) > 0 時,X 與 Y 正相關;
  • 當 Cov(X,Y) < 0 時,X 與 Y 負相關;

  • 當 Cov(X,Y) = 0 時,X 與 Y 不相關。

值得一提的是,E 代表求期望值。也可以用平均值來計算協方差:

Cov(X,Y)=\frac{1}{N-1}\sum_{i=1}^N(X_i-\bar X_i)(Y_i-\bar Y_i)

這裡,之所以除以 N-1 而不是 N 的原因是對總體樣本期望的無偏估計。順便提一下,如果令 Y = X,則協方差表示的正是 X 的方差。

下面,我們根據協方差的公式,分別計算上面三種情況下 X 與 Y 的協方差。

X 與 Y 正相關時,Cov(X,Y) = 37.3684;

X 與 Y 負相關時,Cov(X,Y) = -34.0789;

X 與 Y 不相關時,Cov(X,Y) = -1.0263。

2. 相關係數與協方差什麼關係?

我們已經知道了什麼是協方差以及協方差公式是怎麼來的,如果知道兩個變數 X 與 Y 的協方差與零的關係,我們就能推斷出 X 與 Y 是正相關、負相關還是不相關。那麼有一個問題:協方差數值大小是否代表了相關程度呢?也就是說如果協方差為 100 是否一定比協方差為 10 的正相關性強呢?

請看下面這個例子!

變數 X1 與 Y1 分別為:

X1 = [11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30]

Y1 = [12 12 13 15 16 16 17 19 21 22 22 23 23 26 25 28 29 29 31 32]

變數 X2 和 Y2 分別為:

X2 = [110 120 130 140 150 160 170 180 190 200 210 220 230 240 250 260 270 280 290 300]

Y2 = [113 172 202 206 180 184 242 180 256 209 288 255 240 278 319 322 345 289 333 372]

X1、Y1 和 X2、Y2 分別聯合分佈圖,如下所示:

顯然,從圖中可以看出,X1、Y1 和 X2、Y2 都呈正相關,而且 X1 與 Y1 正相關的程度明顯比 X2 與 Y2 更大一些。接下來,我們計算兩幅圖的協方差看看是不是這樣。

Cov(X1,Y1) = 37.5526

Cov(X2,Y2) = 3730.26

意外!X2 與 Y2 的協方差竟然比 X1 與 Y1 的協方差還大 100 倍。看來並不是協方差越大,正相關程度越高。這到底是為什麼呢?

其實,出現這種情況的原因是兩種情況數值變化的幅值不同(或者量綱不同)。計算協方差的時候我們並沒有把不同變數幅值差異性考慮進來,在比較協方差的時候也就沒有一個統一的量綱標準。

所以,為了消除這一影響,為了準確得到變數之間的相似程度,我們需要把協方差除以各自變數的標準差。這樣就得到了相關係數的表示式:

\rho=\frac{Cov(X,Y)}{\sigma_X\sigma_Y}

可見,相關係數就是在協方差的基礎上除以變數 X 和 Y 的標準差。其中標準差的計算公式為:

\sigma_X=\sqrt{\frac{1}{N-1}\sum_{i=1}^N(X_i-\bar X_i)^2}

\sigma_Y=\sqrt{\frac{1}{N-1}\sum_{i=1}^N(Y_i-\bar Y_i)^2}

為什麼除以各自變數的標準差就能消除幅值影響呢?這是因為標準差本身反映了變數的幅值變化程度,除以標準差正好能起到抵消的作用,讓協方差標準化。這樣,相關係數的範圍就被歸一化到 [-1,1] 之間了。

下面,我們就來分別計算上面這個例子中 X1、Y1 和 X2、Y2 的相關係數。

ρ(X1,Y1) = 0.9939

ρ(X2,Y2) = 0.9180

好了,我們得到 X1 與 Y1 的相關係數大於 X2 與 Y2 的相關係數。這符合實際情況。也就是說,根據相關係數,我們就能判定兩個變數的相關程度,得到以下結論:

  • 相關係數大於零,則表示兩個變數正相關,且相關係數越大,正相關性越高;
  • 相關係數小於零,則表示兩個變數負相關,且相關係數越小,負相關性越高;

  • 相關係數等於零,則表示兩個變數不相關。

回過頭來看一下協方差與相關係數的關係,其實,相關係數是協方差的標準化、歸一化形式,消除了量綱、幅值變化不一的影響。實際應用中,在比較不同變數之間相關性時,使用相關係數更為科學和準確。但是協方差在機器學習的很多領域都有應用,而且非常重要!更多協方差的應用紅色石頭以後會給大家慢慢講解哦!

參考文獻:

https://www.cnblogs.com/tsingke/p/6273970.html

https://www.zhihu.com/question/20852004


相關文章