迴歸模型-評估指標

SongpingWang發表於2018-06-02

這裡寫圖片描述

一、多元線性迴歸

多元線性迴歸示例:

y=b+a1x1+a2x2+···+anxn
y = b+a_1*x_1+a_2*x_2+···+a_n*x_n

這裡寫圖片描述
房價預測案例:
多重共線性(Multicollinearty):
    是指線性迴歸模型中的 解釋變數(X)之間
    由於存在高度相關關係而使模型估計失真或難以估計準確
多重共線性的影響:
    上述模型引數($a_1,a_2...$)估值不準,有時候會導致出現相關性反轉。

如何發現多重共線性
    對X變數探索兩兩之間的相關性(相關矩陣)

逐步迴歸概念是一種多元迴歸模型進行變數篩選的方法,篩選最少的變數來獲取最大化預測能力
三種方法:
    向前選擇法
    向後剔除法
    逐步迴歸法

二、正則化防止過擬合

L2正則化–嶺迴歸 Ridge Regression
mini=1n(YiYi^)=mini=1nε^i2

在最小化殘差平方和的基礎上,增加L2範數的懲罰項:
i=1n(yiβ0j=1pβjxij)2+λj=1pβj2=RSS+λj=1pβj2
\sum_{i=1}^{n}\left ( y_i-\beta_0-\sum_{j=1}^{p}\beta _jx_{ij} \right )^2+\lambda\sum_{j=1}^{p}\beta_j^2=RSS +\lambda\sum_{j=1}^{p}\beta_j^2
L1正則化–lasso迴歸
mini=1n(YiYi^)=mini=1nε^i2

在最小化殘差平方和的基礎上,增加L1範數的懲罰項:
i=1n(yiβ0j=1pβjxij)2+λj=1p|βj|=RSS+λj=1p|βj|
\sum_{i=1}^{n}\left( y_i-\beta_0-\sum_{j=1}^{p}\beta _jx_{ij} \right )^2+\lambda\sum_{j=1}^{p}|\beta_j|=RSS +\lambda\sum_{j=1}^{p}|\beta_j|

三、非線性迴歸:多項式迴歸

方法:
非線性迴歸的轉換——取對數
多項式迴歸程式碼實現:
sklearn.preprocession.PolynomialFeatures(
                degree = 2,              #階數
                interaction_only = False,
                include_bias = True
               ) 

sklearn.linear_model.LinearRegression(
                fit_intercept = True,
                noemalize = False,
                copy_X = True
                )
3.1 迴歸模型評估指標
解釋方差(Explianed variance score):
Explianed_variance(y,y^)=1Var{yy^}Var{y}
絕對平均誤差(Mean absolute error):
MAE(y,y^)=1nsampliesi=0nsamplies1|yiy^|
MAE(y,\hat{y}) = \frac{1}{n_{samplies}}\sum_{i=0}^{n_{samplies}-1}|y_i-\hat{y}|
均方誤差(Mean squared error):
MSE(y,y^)=1nsampliesi=0nsamplies1(yiy^)2
MSE(y,\hat{y}) = \frac{1}{n_{samplies}}\sum_{i=0}^{n_{samplies}-1}(y_i-\hat{y})^2
決定係數(R2
R^2
score)
R2(y,y^)=1i=0nsamplies1(yiyi^)2i=0nsamplies1(yiy¯)2
R^2(y,\hat{y}) =1-\frac{\sum_{i=0}^{{n_{samplies}}^{-1}}(y_i-\hat{y_i})^2}{\sum_{i=0}^{{n_{samplies}}^{-1}}(y_i-\bar{y})^2}
程式碼:
sklearn.metrics
from sklearn.metrics import explained_variance_score
explained_variance_score(y_true,y_pred)

from sklearn.metrics import mean_absolute_error
mean_absolute_error(y_true,y_pred)

from sklearn.metrics import mean_squared_error
mean_squared_error(y_true,y_pred)

from sklearn.metrics import r2_score
r2_score(y_true,y_pred)

四、決策樹(分類迴歸樹)分類標準

這裡寫圖片描述
>
Gain(A) = Variance(父) - Variance(子) #Gain(A)資訊增益

五、相關和迴歸

5.1 相關和迴歸的關係
    都是研究變數相互關係的分析方法
    相關分析是迴歸分析基礎和前提,迴歸分析是變數之間相關程度的具體形式
    相關分析:正相關,負相關
    相關形式: 線性, 非線性

這裡寫圖片描述
這裡寫圖片描述
>

5.2 線性相關性度量:皮爾遜相關係數

r=i=1n(xix¯)(yiy¯)i=1n(xix¯)2i=1n(yiy¯)2
r = \frac{\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2}\sqrt{\sum_{i=1}^{n}(y_i-\bar{y})^2}}

這裡寫圖片描述
相關VS迴歸:
這裡寫圖片描述

六、一元線性迴歸

6.1 一元線性迴歸模型

這裡寫圖片描述

尋找最佳擬合直線:最小二乘法
該方法是尋找最佳擬合直線的引數(斜率和截距)
mini=1n(YiYi^)2=mini=1nεi^2

引數估計迴歸表示式Yi^=β0^+β1^xi
\hat{Y_i} = \hat{β_0}+\hat{β_1}x_i
:      β1^=SSxySSxx=(xix¯)yiy¯)(xix¯)2
斜率:~~~~~~\hat{\beta_1}=\frac{SS_{xy}}{SS_{xx}} = \frac{\sum(x_i-\bar{x})y_i-\bar{y})}{\sum(x_i-\bar{x})^2}

:        β0^=y¯β1^x¯                                 
截 距:~~~~~~~~ \hat{β_0} = \bar{y}-\hat{β_1}\bar{x}~~~~~~~~ ~~~~~~~~~~~~~~~~~~~~~~~~~

七、課程總結

分類與迴歸 區別與聯絡
相似之處:
    都是有監督學習
    最重要的兩種預測模型
    決策樹既可以分類 也可以做迴歸
    二元分類模型的經典演算法邏輯迴歸演算法,本質上也是一種迴歸演算法

區別:
    迴歸目標變數是連續型變數
    分類目標變數是類別型變數

常見的餓迴歸演算法和模型
    1 基於最小二乘法的一元/多元線性迴歸
    2 多項式迴歸(非線性)
    3 Ridge 迴歸(L2正則化迴歸),嶺迴歸
    4 Lasso 迴歸(L1正則化迴歸),套索迴歸
    5 決策樹(CART,分類迴歸樹)
    6 邏輯迴歸

相關文章