通俗解釋協方差與相關係數

什麼是協方差（Covariance）？

協方差表示的是兩個變數的總體的誤差，這與只表示一個變數誤差的方差不同。如果兩個變數的變化趨勢一致，也就是說如果其中一個大於自身的期望值，另外一個也大於自身的期望值，那麼兩個變數之間的協方差就是正值。如果兩個變數的變化趨勢相反，即其中一個大於自身的期望值，另外一個卻小於自身的期望值，那麼兩個變數之間的協方差就是負值。

以上是某百科的解釋。等等！是不是還是覺得比較晦澀難懂呢？對於非理工科的小白來說，如何清晰、形象地理解協方差和相關係數的數學概念呢？沒關係，今天紅色石頭就通過形象生動的例子，通俗易懂地給大家來講一講協方差與相關係數。

1. 協方差是怎麼來的？

簡單地來說，協方差就是反映兩個變數 X 和 Y 的相互關係。這種相互關係大致分為三種：正相關、負相關、不相關。

什麼是正相關呢？例如房屋面積（X）越大，房屋總價（Y）越高，則房屋面積與房屋總價是正相關的；

什麼是負相關呢？例如一個學生打遊戲的時間（X）越多，學習成績（Y）越差，則打遊戲時間與學習成績是負相關的；

什麼是不相關呢？例如一個人皮膚的黑白程度（X）與他的身體健康程度（Y）並無明顯關係，所以是不相關的。

我們先來看第一種情況，令變數 X 和變數 Y 分別為：

X = [11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30]

Y = [12 15 17 21 22 21 18 23 26 25 22 28 24 28 30 33 28 34 36 35]

在座標上描繪出 X 和 Y 的聯合分佈：

顯然，Y 在整體趨勢上是隨著 X 的增加而增加的，即 Y 與 X 的變化是同向的。這種情況，我們就稱 X 與 Y 是正相關的。

我們再來看第二種情況，令變數 X 和變數 Y 分別為：

X = [11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30]

Y = [35 35 29 29 28 28 27 26 26 23 21 22 25 19 16 19 20 16 15 16]

在座標上描繪出 X 和 Y 的聯合分佈：

顯然，Y 在整體趨勢上是隨著 X 的增加而減少的，即 Y 與 X 的變化是反向的。這種情況，我們就稱 X 與 Y 是負相關的。

我們再來看第三種情況，令變數 X 和變數 Y 分別為：

X = [11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30]

Y = [16 16 28 17 20 26 20 17 21 15 12 29 24 25 16 15 21 13 17 25]

在座標上描繪出 X 和 Y 的聯合分佈：

顯然，Y 在整體趨勢上與 X 的並無正相關或者負相關的關係。這種情況，我們就稱 X 與 Y 是不相關的。

回過頭來，我們來看 X 與 Y 正相關的情況，令 EX、EY 分別是 X 和 Y 的期望值。什麼是期望呢？在這裡我們可以把它看成是平均值，即 EX 是變數 X 的平均值，EY 是變數 Y 的平均值。把 EX 和 EY 在圖中表示出來得到下面的圖形：

上圖中，整個區域被 EX 和 EY 分割成 I、II、III、IV 四個區域，且 X 和 Y 大部分分佈在 I、III 區域內，只有少部分分佈在 II、IV 區域內。

在區域 I 中，滿足 X>EX，Y>EY，則有 (X-EX)(Y-EY)>0；

在區域 II 中，滿足 X<EX，Y>EY，則有 (X-EX)(Y-EY)<0；

在區域 III 中，滿足 X<EX，Y<EY，則有 (X-EX)(Y-EY)>0；

在區域 IV 中，滿足 X>EX，Y<EY，則有 (X-EX)(Y-EY)<0。

顯然，在區域 I、III 中，(X-EX)(Y-EY)>0；在區域 II、IV 中，(X-EX)(Y-EY)<0。而 X 和 Y 正相關時，資料大部分是分佈在 I、III 區域內，只有少部分分佈在 II、IV 區域。因此，從平均角度來看，正相關滿足：

$E(X-EX)(Y-EY)>0$

上式表示的是 (X-EX)(Y-EY) 的期望大於零，即 (X-EX)(Y-EY) 的平均值大於零。

然後，再來看 X 和 Y 負相關的情況：

上圖中，X 和 Y 大部分分佈在 II、IV 區域內，只有少部分分佈在 I、III 區域內。

同樣，在區域 I、III 中，(X-EX)(Y-EY)>0；在區域 II、IV 中，(X-EX)(Y-EY)<0。而 X 和 Y 負相關時，資料大部分是分佈在 II、IV 區域內，只有少部分分佈在 I、III 區域。因此，從平均角度來看，負相關滿足：

$E(X-EX)(Y-EY)<0$

上式表示的是 (X-EX)(Y-EY) 的期望小於零，即 (X-EX)(Y-EY) 的平均值小於零。

最後，再來看 X 和 Y 不相關的情況：

上圖中，X 和 Y 在 I、II、III、IV 區域內近似均勻分佈。

同樣，在區域 I、III 中，(X-EX)(Y-EY)>0；在區域 II、IV 中，(X-EX)(Y-EY)<0。而 X 和 Y 不相關時，資料在各區域內均勻分佈，從平均角度來看，不相關滿足：

$E(X-EX)(Y-EY)=0$

上式表示的是 (X-EX)(Y-EY) 的期望等於零，即 (X-EX)(Y-EY) 的平均值等於零。

綜上所述，我們得到以下結論：

當 X 和 Y 正相關時： $E(X-EX)(Y-EY)>0$
當 X 和 Y 負相關時： $E(X-EX)(Y-EY)<0$
當 X 和 Y 不相關時： $E(X-EX)(Y-EY)=0$

因此，我們就引出了協方差的概念，它是表示 X 和 Y 之間相互關係的數字特徵。我們定義協方差為：

$Cov=E(X-EX)(Y-EY)$

根據之前討論的結果，

當 Cov(X,Y) > 0 時，X 與 Y 正相關；
當 Cov(X,Y) < 0 時，X 與 Y 負相關；
當 Cov(X,Y) = 0 時，X 與 Y 不相關。

值得一提的是，E 代表求期望值。也可以用平均值來計算協方差：

$Cov(X,Y)=\frac{1}{N-1}\sum_{i=1}^N(X_i-\bar X_i)(Y_i-\bar Y_i)$

這裡，之所以除以 N-1 而不是 N 的原因是對總體樣本期望的無偏估計。順便提一下，如果令 Y = X，則協方差表示的正是 X 的方差。

下面，我們根據協方差的公式，分別計算上面三種情況下 X 與 Y 的協方差。

X 與 Y 正相關時，Cov(X,Y) = 37.3684；

X 與 Y 負相關時，Cov(X,Y) = -34.0789；

X 與 Y 不相關時，Cov(X,Y) = -1.0263。

2. 相關係數與協方差什麼關係？

我們已經知道了什麼是協方差以及協方差公式是怎麼來的，如果知道兩個變數 X 與 Y 的協方差與零的關係，我們就能推斷出 X 與 Y 是正相關、負相關還是不相關。那麼有一個問題：協方差數值大小是否代表了相關程度呢？也就是說如果協方差為 100 是否一定比協方差為 10 的正相關性強呢？

請看下面這個例子！

變數 X1 與 Y1 分別為：

X1 = [11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30]

Y1 = [12 12 13 15 16 16 17 19 21 22 22 23 23 26 25 28 29 29 31 32]

變數 X2 和 Y2 分別為：

X2 = [110 120 130 140 150 160 170 180 190 200 210 220 230 240 250 260 270 280 290 300]

Y2 = [113 172 202 206 180 184 242 180 256 209 288 255 240 278 319 322 345 289 333 372]

X1、Y1 和 X2、Y2 分別聯合分佈圖，如下所示：

顯然，從圖中可以看出，X1、Y1 和 X2、Y2 都呈正相關，而且 X1 與 Y1 正相關的程度明顯比 X2 與 Y2 更大一些。接下來，我們計算兩幅圖的協方差看看是不是這樣。

Cov(X1,Y1) = 37.5526

Cov(X2,Y2) = 3730.26

意外！X2 與 Y2 的協方差竟然比 X1 與 Y1 的協方差還大 100 倍。看來並不是協方差越大，正相關程度越高。這到底是為什麼呢？

其實，出現這種情況的原因是兩種情況數值變化的幅值不同（或者量綱不同）。計算協方差的時候我們並沒有把不同變數幅值差異性考慮進來，在比較協方差的時候也就沒有一個統一的量綱標準。

所以，為了消除這一影響，為了準確得到變數之間的相似程度，我們需要把協方差除以各自變數的標準差。這樣就得到了相關係數的表示式：

$\rho=\frac{Cov(X,Y)}{\sigma_X\sigma_Y}$

可見，相關係數就是在協方差的基礎上除以變數 X 和 Y 的標準差。其中標準差的計算公式為：

$\sigma_X=\sqrt{\frac{1}{N-1}\sum_{i=1}^N(X_i-\bar X_i)^2}$

$\sigma_Y=\sqrt{\frac{1}{N-1}\sum_{i=1}^N(Y_i-\bar Y_i)^2}$

為什麼除以各自變數的標準差就能消除幅值影響呢？這是因為標準差本身反映了變數的幅值變化程度，除以標準差正好能起到抵消的作用，讓協方差標準化。這樣，相關係數的範圍就被歸一化到 [-1,1] 之間了。

下面，我們就來分別計算上面這個例子中 X1、Y1 和 X2、Y2 的相關係數。

ρ(X1,Y1) = 0.9939

ρ(X2,Y2) = 0.9180

好了，我們得到 X1 與 Y1 的相關係數大於 X2 與 Y2 的相關係數。這符合實際情況。也就是說，根據相關係數，我們就能判定兩個變數的相關程度，得到以下結論：

相關係數大於零，則表示兩個變數正相關，且相關係數越大，正相關性越高；
相關係數小於零，則表示兩個變數負相關，且相關係數越小，負相關性越高；
相關係數等於零，則表示兩個變數不相關。

回過頭來看一下協方差與相關係數的關係，其實，相關係數是協方差的標準化、歸一化形式，消除了量綱、幅值變化不一的影響。實際應用中，在比較不同變數之間相關性時，使用相關係數更為科學和準確。但是協方差在機器學習的很多領域都有應用，而且非常重要！更多協方差的應用紅色石頭以後會給大家慢慢講解哦！

參考文獻：

https://www.cnblogs.com/tsingke/p/6273970.html

https://www.zhihu.com/question/20852004

通俗解釋協方差與相關係數

1. 協方差是怎麼來的？

2. 相關係數與協方差什麼關係？

相關文章