為什麼特徵相關性非常的重要?

AIBigbull2050發表於2019-10-23
作者:Will Badr
編譯:ronghuaiyang

導讀

鸛會接生孩子嗎?雖然它已經在相關性和因果關係的背景下得到了理論上的證明,但本文探討了相關性以及它與因果關係的不同之處。
為什麼特徵相關性非常的重要?

器學習模型的好壞取決於你所擁有的資料。這就是為什麼資料科學家可以花費數小時對資料進行預處理和清理。他們只選擇對結果模型的質量貢獻最大的特徵。這個過程稱為 “特徵選擇”。特徵選擇是選擇能夠使預測變數更加準確的屬性,或者剔除那些不相關的、會降低模型精度和質量的屬性的過程。

資料與特徵相關被認為是資料預處理中特徵選擇階段的一個重要步驟,尤其是當特徵的資料型別是連續的。那麼,什麼是資料相關性呢?

資料相關性:是一種理解資料集中多個變數和屬性之間關係的方法。使用相關性,你可以得到一些見解,如:

  • 一個或多個屬性依賴於另一個屬性或是另一個屬性的原因。
  • 一個或多個屬性與其他屬性相關聯。

那麼,相關性為什麼有用?

  • 相關性可以幫助從一個屬性預測另一個(偉大的方式,填補缺失值)。
  • 相關性(有時)可以表示因果關係的存在。
  • 相關性被用作許多建模技術的基本量

讓我們更仔細地看看這意味著什麼,以及相關性是如何有用的。相關性有三種型別:

正相關:表示如果feature  A增加,feature  B也增加;如果feature  A減少,feature  B也減少。這兩個特徵是同步的,它們之間存線上性關係。

為什麼特徵相關性非常的重要?

負相關(左)正相關(右)

負相關:表示如果feature  A增加,feature  B減少,反之亦然。

無相關性:這兩個屬性之間沒有關係。

這些相關型別中的每一種都存在於由0到1的值表示的頻譜中,其中微弱或高度正相關的特徵可以是0.5或0.7。如果存在強而完全的正相關,則用0.9或1的相關分值表示結果。

如果存在很強的負相關關係,則表示為-1。

如果你的資料集具有完全正或負的屬性,那麼模型的效能很可能會受到一個稱為“多重共線性”的問題的影響。 多重共線性發生在多元迴歸模型中的一個預測變數可以由其他預測變數線性預測,且預測精度較高。這可能導致歪曲或誤導的結果。幸運的是,決策樹和提升樹演算法天生不受多重共線性的影響。當它們決定分裂時,樹只會選擇一個完全相關的特徵。然而,其他演算法,如邏輯迴歸或線性迴歸,也不能避免這個問題,你應該在訓練模型之前修復它。

我該如何處理這個問題?

有多種方法來處理這個問題。最簡單的方法是刪除完全相關的特性。另一種方法是使用降維演算法,比如PCA。

Spearman VS Pearson相關矩陣:

Spearman和Pearson是計算兩個變數或屬性之間相關性強弱的兩種統計方法。 Pearson相關係數可用於線性關係的連續變數。舉個例子:

為什麼特徵相關性非常的重要?

為什麼特徵相關性非常的重要?

上面程式碼的輸出

要列印Pearson係數評分,只需執行 pearsonr(X,Y),結果為: (0.88763627518577326,5.1347242986713319e-05),其中第一個值為Pearson相關係數,第二個值為p值。0.8表示變數呈高度正相關。

如果變數之間存在非線性關係,則可以使用 Spearman  相關係數來度量相關性。也可以與ordinal categorical variables一起使用。可以通過執行 scipy.stats.spearmanr(X,Y)來獲得Spearman係數得分。

這聽起來可能很複雜特別是對於高維資料集。在這種情況下,最好在矩陣中視覺化相關關係。下面是如何使用panda實現這一點,我使用的是Porto Seguro的Kaggle安全駕駛預測資料集:

為什麼特徵相關性非常的重要?

為什麼特徵相關性非常的重要?

從上面的矩陣中可以看出,psreg03和psreg02變數之間以及pscar12和pscar13之間具有很高的相關性。

還有一種很流行的方法叫做Kendall’s Tau係數,它也是基於可變等級的,但與Spearman係數不同,它沒有考慮等級之間的差異。由於本文的重點是Pearson和Spearman的相關性,所以Kendall方法不在本文的研究範圍之內。

誤解(鸛會接生孩子嗎?):

相關性經常被解釋為因果關係,這是一個很大的誤解。變數之間的相關性並不表示因果關係。任何高度相關的變數都應該仔細檢查和考慮。這是一篇(幽默的)德語文章,它使用相關性來證明嬰兒是由鸛來接生的理論。研究表明,城市周邊鸛類數量的增加與城市醫院外接生數量的增加之間存在顯著的相關性。

為什麼特徵相關性非常的重要?

左邊的圖表顯示鸛的數量增加(粗體黑線),醫院分娩的數量減少。另一方面,右邊的圖表顯示,醫院外分娩的數量(白色方塊標記)遵循鸛數量增加的模式。雖然這項研究並不是為了科學地證明(嬰兒鸛理論),但它表明,通過高相關性,一種關係可能看起來是因果關係。這可能是由於一些未觀察到的變數。例如,人口增長可以是另一個因果變數。

總之:相關性在許多應用中都非常有用,尤其是在進行迴歸分析時。然而,它不應與因果關係混在一起,並以任何方式被誤解。你還是應該始終檢查資料集中不同變數之間的相關性,並在探索和分析過程中收集一些見解

英文原文:

https://towardsdatascience.com/why-feature-correlation-matters-a-lot-847e8ba439c4


https://www.toutiao.com/a6750613464797938189/



來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2661092/,如需轉載,請註明出處,否則將追究法律責任。

相關文章