迴歸分析中R方和調整R方的區別

人工智慧遇見磐創發表於2020-07-20

作者|ANIRUDDHA BHANDARI
編譯|VK
來源|Analytics Vidhya

概述

  • 理解R方和調整R方的概念
  • 瞭解R方和調整R方之間的關鍵區別

介紹

當我開始我的資料科學之旅時,我探索的第一個演算法是線性迴歸。

在理解了線性迴歸的概念和演算法的工作原理之後,我非常興奮地使用它並在問題陳述中做出預測。我相信你們大多數人也會這麼做的。但是一旦我們建立了模型,下一步是什麼呢?

接下來是棘手的部分。一旦我們建立了模型,下一步就是評估它的效能。毋庸置疑,模型評價是一項關鍵性的任務,它凸顯了模型的不足。

選擇最合適的評價指標是一個關鍵的任務。而且,我遇到了兩個重要的指標:除了MAE/MSE/RMSE,有R方和調整R方。這兩者有什麼區別?我應該用哪一個?

R方和調整R方是兩個評估指標,對於任何一個資料科學的追求者來說,這兩個指標可能會讓他們感到困惑。

它們對評估迴歸問題都非常重要,我們將深入瞭解和比較它們。它們各有利弊,我們將在本文中詳細討論。

目錄

  • 殘差平方和
  • 瞭解R方統計量
  • 關於R方統計量的問題
  • 調整R方統計量

殘差平方和

為了清楚地理解這些概念,我們將討論一個簡單的迴歸問題。在這裡,我們試圖根據“花在學習上的時間”來預測“獲得的分數”。學習時間是我們的自變數,考試成績是我們的因變數或目標變數。

我們可以繪製一個簡單的迴歸圖來視覺化這些資料。

黃點代表資料點,藍線是我們預測的迴歸線。如你所見,我們的迴歸模型並不能完美地預測所有的資料點。

那麼我們如何利用這些資料來評估迴歸線的預測呢?我們可以從確定資料點的殘差開始。

資料中某一點的殘差是實際值與線性迴歸模型預測值之間的差值。

殘差圖告訴我們迴歸模型是否適合資料。殘差的平方實際上是迴歸模型優化的目標函式。

利用殘差值,我們可以確定殘差的平方和,也稱為殘差平方和或RSS。。

RSS值越低,模型預測值越好。或者我們可以這樣說——如果迴歸線使RSS值最小化,那麼迴歸線就是最佳擬合線。

但這其中有一個缺陷——RSS是一個尺度變數統計。由於RSS是實際值和預測值的平方差之和,因此該值取決於目標變數的大小。

例子:

假設你的目標變數是銷售產品所產生的收入。殘差取決於目標的大小。如果收入大小以“1百盧比”為單位計算的話(即目標可能是1、2、3等),那麼我們可能會得到0.54左右的RSS(假設)。

但是如果收入目標變數以“盧比”為單位(即目標值為100、200、300等),那麼我們可能會得到一個更大的RSS,即5400。即使資料沒有變化,RSS的值也會隨著目標的大小而變化。這使得很難判斷什麼是好的RSS值。

那麼,我們能想出一個更好的尺度不變的統計量嗎?這就是R方出現的地方。

R方統計量

R方統計量是一種尺度不變的統計量,它給出了線性迴歸模型解釋的目標變數的變化比例。

這可能看起來有點複雜,所以讓我在這裡把它分解。為了確定模型解釋的目標變化比例,我們需要首先確定以下內容-

平方和(TSS)

目標變數的總變化是實際值與其平均值之差的平方和。

TSS或總平方和給出了Y的總變化量。我們可以看到它與Y的方差非常相似。雖然方差是實際值和資料點之間差的平方和的平均值,TSS是平方和的總和。

既然我們知道了目標變數的總變化量,我們如何確定模型解釋的這種變化的比例?我們回到RSS。

殘差平方和(RSS)

正如我們前面討論的,RSS給出了實際點到迴歸線距離的總平方。殘差,我們可以說是迴歸線沒有捕捉到的距離。

因此,RSS作為一個整體給了我們目標變數中沒有被我們的模型解釋的變化。

R方

現在,如果TSS給出Y的總變化量,RSS給出不被X解釋的Y的變化量,那麼TSS-RSS給出了Y的變化,並且這部分變化是由我們的模型解釋的!我們可以簡單地再除以TSS,得到由模型解釋的Y中的變化比例。這是我們的R方統計量!

R方=(TSS-RSS)/TSS

​ =解釋變化/總變化

​ =1–未解釋的變化/總變化

因此,R方給出了目標變數的可變性程度,由模型或自變數解釋。如果該值為0.7,則意味著自變數解釋了目標變數中70%的變化。

R方始終介於0和1之間。R方越高,說明模型解釋的變化越多,反之亦然。

如果RSS值很低,這意味著迴歸線非常接近實際點。這意味著自變數解釋了目標變數的大部分變化。在這種情況下,我們會有一個非常高的R方值。

相反,如果RSS值非常高,則意味著迴歸線遠離實際點。因此,自變數無法解釋目標變數中的大部分變數。這會給我們一個很低的R方值。

所以,這就解釋了為什麼R方值給出了目標變數的變化量。

關於R方統計量的問題

R方統計並不完美。事實上,它有一個主要缺陷。不管我們在迴歸模型中新增多少變數,它的值永遠不會減少。

也就是說,即使我們在資料中新增冗餘變數,R方的值也不會減少。它要麼保持不變,要麼隨著新的自變數的增加而增加。

這顯然沒有意義,因為有些自變數在確定目標變數時可能沒有用處。調整R方處理了這個問題。

調整R方統計量

調整R方考慮了用於預測目標變數的自變數數量。在這樣做的時候,我們可以確定在模型中新增新的變數是否會增加模型的擬合度。

讓我們看看調整R方的公式,以便更好地理解它的工作原理。

在這裡,

  • n表示資料集中的資料點數量
  • k表示自變數的個數
  • R代表模型確定的R方值

因此,如果R方在增加一個新的自變數時沒有顯著增加,那麼調整R方值實際上會減少。

另一方面,如果增加新的自變數,我們看到R方值顯著增加,那麼調整R方值也會增加。

如果我們在模型中加入一個隨機自變數,我們可以看到R方值和調整R方值之間的差異。

如你所見,新增隨機獨立變數無助於解釋目標變數的變化。我們的R方值保持不變。因此,給我們一個錯誤的指示,這個變數可能有助於預測輸出。然而,調整R方值下降,表明這個新變數實際上沒有捕捉到目標變數的趨勢。

顯然,當迴歸模型中存在多個變數時,最好使用調整R方。這將使我們能夠比較具有不同數量獨立變數的模型。

結尾

在這篇文章中,我們研究了R方統計值是什麼,它在哪裡不穩定。我們還研究了調整R方。

希望這能讓你更好地理解事情。現在,你可以謹慎地確定哪些自變數有助於預測迴歸問題的輸出。

原文連結:https://www.analyticsvidhya.c...

歡迎關注磐創AI部落格站:
http://panchuang.net/

sklearn機器學習中文官方文件:
http://sklearn123.com/

歡迎關注磐創部落格資源彙總站:
http://docs.panchuang.net/

相關文章