迴歸模型-評估指標

SongpingWang發表於2018-06-02

原文網址 : https://blog.csdn.net/wsp_1138886114/article/details/80473440

這裡寫圖片描述

一、多元線性迴歸

多元線性迴歸示例：

y = b + a_{1} * x_{1} + a_{2} * x_{2} + \cdot \cdot \cdot + a_{n} * x_{n}

y = b+a_1*x_1+a_2*x_2+···+a_n*x_n

房價預測案例：
多重共線性（Multicollinearty）:
    是指線性迴歸模型中的 解釋變數（X）之間
    由於存在高度相關關係而使模型估計失真或難以估計準確
多重共線性的影響:
    上述模型引數（$a_1,a_2...$）估值不準，有時候會導致出現相關性反轉。

如何發現多重共線性
    對X變數探索兩兩之間的相關性（相關矩陣）

逐步迴歸概念是一種多元迴歸模型進行變數篩選的方法，篩選最少的變數來獲取最大化預測能力
三種方法：
    向前選擇法
    向後剔除法
    逐步迴歸法

二、正則化防止過擬合

L2正則化–嶺迴歸 Ridge Regression: $m i n \sum_{i = 1}^{n} (Y_{i} - \hat{Y_{i}}) = m i n \sum_{i = 1}^{n} {\hat{ε}}_{i}^{2}$
在最小化殘差平方和的基礎上，增加L2範數的懲罰項：
$\sum_{i = 1}^{n} {(y_{i} - β_{0} - \sum_{j = 1}^{p} β_{j} x_{i j})}^{2} + λ \sum_{j = 1}^{p} β_{j}^{2} = R S S + λ \sum_{j = 1}^{p} β_{j}^{2}$
\sum_{i=1}^{n}\left ( y_i-\beta_0-\sum_{j=1}^{p}\beta _jx_{ij} \right )^2+\lambda\sum_{j=1}^{p}\beta_j^2=RSS +\lambda\sum_{j=1}^{p}\beta_j^2
L1正則化–lasso迴歸: $m i n \sum_{i = 1}^{n} (Y_{i} - \hat{Y_{i}}) = m i n \sum_{i = 1}^{n} {\hat{ε}}_{i}^{2}$
在最小化殘差平方和的基礎上，增加L1範數的懲罰項：
$\sum_{i = 1}^{n} {(y_{i} - β_{0} - \sum_{j = 1}^{p} β_{j} x_{i j})}^{2} + λ \sum_{j = 1}^{p} | β_{j} | = R S S + λ \sum_{j = 1}^{p} | β_{j} |$
\sum_{i=1}^{n}\left( y_i-\beta_0-\sum_{j=1}^{p}\beta _jx_{ij} \right )^2+\lambda\sum_{j=1}^{p}|\beta_j|=RSS +\lambda\sum_{j=1}^{p}|\beta_j|

三、非線性迴歸：多項式迴歸

方法：: 非線性迴歸的轉換——取對數

多項式迴歸程式碼實現：
sklearn.preprocession.PolynomialFeatures(
                degree = 2,              #階數
                interaction_only = False,
                include_bias = True
               ) 

sklearn.linear_model.LinearRegression(
                fit_intercept = True,
                noemalize = False,
                copy_X = True
                )

3.1 迴歸模型評估指標

解釋方差（Explianed variance score）：: $E x p l i a n e d_v a r i a n c e (y, \hat{y}) = 1 - \frac{V a r {y - \hat{y}}}{V a r {y}}$
絕對平均誤差（Mean absolute error）：: $M A E (y, \hat{y}) = \frac{1}{n_{s a m p l i e s}} \sum_{i = 0}^{n_{s a m p l i e s} - 1} | y_{i} - \hat{y} |$
MAE(y,\hat{y}) = \frac{1}{n_{samplies}}\sum_{i=0}^{n_{samplies}-1}|y_i-\hat{y}|
均方誤差（Mean squared error）：: $M S E (y, \hat{y}) = \frac{1}{n_{s a m p l i e s}} \sum_{i = 0}^{n_{s a m p l i e s} - 1} (y_{i} - \hat{y})^{2}$
MSE(y,\hat{y}) = \frac{1}{n_{samplies}}\sum_{i=0}^{n_{samplies}-1}(y_i-\hat{y})^2
決定係數（ $R^{2}$ R^2 score）: $R^{2} (y, \hat{y}) = 1 - \frac{\sum_{i = 0}^{{n_{s a m p l i e s}}^{- 1}} (y_{i} - \hat{y_{i}})^{2}}{\sum_{i = 0}^{{n_{s a m p l i e s}}^{- 1}} (y_{i} - \bar{y})^{2}}$
R^2(y,\hat{y}) =1-\frac{\sum_{i=0}^{{n_{samplies}}^{-1}}(y_i-\hat{y_i})^2}{\sum_{i=0}^{{n_{samplies}}^{-1}}(y_i-\bar{y})^2}

程式碼：
sklearn.metrics
from sklearn.metrics import explained_variance_score
explained_variance_score(y_true,y_pred)

from sklearn.metrics import mean_absolute_error
mean_absolute_error(y_true,y_pred)

from sklearn.metrics import mean_squared_error
mean_squared_error(y_true,y_pred)

from sklearn.metrics import r2_score
r2_score(y_true,y_pred)

四、決策樹（分類迴歸樹）分類標準

這裡寫圖片描述
>
Gain(A) = Variance(父) - Variance(子) #Gain(A)資訊增益

五、相關和迴歸

5.1 相關和迴歸的關係

    都是研究變數相互關係的分析方法
    相關分析是迴歸分析基礎和前提，迴歸分析是變數之間相關程度的具體形式
    相關分析：正相關,負相關
    相關形式: 線性, 非線性

這裡寫圖片描述

>

5.2 線性相關性度量：皮爾遜相關係數

r = \frac{\sum_{i = 1}^{n} (x_{i} - \bar{x}) (y_{i} - \bar{y})}{\sqrt{\sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}} \sqrt{\sum_{i = 1}^{n} (y_{i} - \bar{y})^{2}}}

r = \frac{\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2}\sqrt{\sum_{i=1}^{n}(y_i-\bar{y})^2}}

相關VS迴歸:

六、一元線性迴歸

6.1 一元線性迴歸模型