線性迴歸—求解介紹及迴歸擴充套件

藍色的葉子發表於2018-04-17

原文網址 : https://juejin.im/post/5ad5f576f265da237c6968bb

作為機器學習中的線性迴歸，它是一個典型的迴歸問題，由於容易理解、可解釋性強，被廣泛應用於機器學習的過程中。為了深入瞭解線性迴歸相關知識，飛馬網於4月12日晚邀請到先後在1號店、飛牛網等電商企業從事演算法工作的張飛老師，線上上直播中，為我們分享線性迴歸知識。

以下本次是分享實錄：

一.迴歸的概念

迴歸在我們的日常工作中經常會用到，比如預測銷量、房價等，我們首先來了解一下什麼是迴歸？

二．變數之間的關係

兩個變數之間的關係是怎樣的呢？主要包括兩種關係：確定性關係和非確定性關係。確定性關係可以通過函式表達出來，例如圓點周長與半徑的關係、速度和時間與路程的關係、X與Y的函式關係等。非確定性關係表示兩變數之間一種巨集觀上的關係，不能精確用函式關係來表達，例如青少年身高與年齡的關係、身高與體重的關係、藥物濃度與反應率的關係。

三．線性迴歸的概念

我們下面來介紹線性迴歸的概念。當兩個變數存在準確、嚴格的直線關係時，可以用Y=a+bX（X為自變數，Y是因變數），表示兩者的函式關係。

那為什麼叫“迴歸”呢？這裡簡單瞭解一下。高爾頓在研究人的身高時，發現父代與子代的身高不是處於兩個極端，而是反映了一個規律，這兩種身高父親的兒子的身高，有向他們父輩的平均身高迴歸的趨勢，即當父親高於平均身高時，他們的兒子身高比他更高的概率要小於比他更矮的概率；父親矮於平均身高時，他們的兒子身高比他更矮的概率要小於比他更高的概率，這就是所謂的迴歸效應。

四．線性迴歸求解（迴歸引數的估計）

1.最小二乘法：

要求出a和b這兩個引數，就要用到最小二乘法的計算方法，我們看下圖的迴歸方程。最小二乘法即保證各實測點到迴歸直線的縱向距離的平方和最小，並使計算出的迴歸方程最能代表實測資料所反映出的直線趨勢。

我們簡單瞭解一下最小二乘法計算過程的例子：

函式模型寫成矩陣式如下圖。t1至tn為輸入值，b0、b1做了一個矩陣乘法，y1到yn是實際的值。

根據下面這張圖中的戰艦資料，我們求b1。

具體計算過程如下：

上面所講的最小二乘法均是在二元情況下，我們再看看多元情況下的最小二乘法，也可以用矩陣式表達，如下圖所示：

用矩陣轉置的運算方法來求解，會涉及矩陣逆的計算，就會有一個問題，如果資料量較大，計算就會非常慢，這是就要判斷擬合的好壞，那我們用什麼指標來衡量呢？第一個方法是我們計算出SE、SR、ST。

我們也可以通過另外的指標—相關係數來衡量擬合的好壞：

在多元線性迴歸時，資料量比較大的情況下，最小二乘法求解耗費的資源較大，那我們有沒有其它的方法呢？我們來看下面這張圖：

2.梯度下降：

由此我們引出全新的一個方法來求解線性迴歸引數—梯度下降，這是我們常用到的一個方法，它計算量較小，且可以得到一個相對而言的區域性最優解。一起來看一下梯度下降的方法和演算法過程圖：

梯度下降本質上是求出一個函式的最小值，使得它的損失函式最小，因此針對損失函式用梯度下降，就能夠使梯度下降和線性迴歸整合，看下圖：

①梯度下降Feature Scaling

為了加快梯度下降的執行速度，我們就要將特徵標準化，常用的標準化方法如下：

下面是一個練習題：

②梯度下降多元

在實際問題中，我們的特徵不可能只有兩個，也許會有很多個，這邊舉了一個房價的例子：

它的損失函式和之前一樣，只是變成了在多元情況下，梯度求解也是由之前的一元改為多元情況，把對應的值求出來，我們來看圖：

下面我們來看一下例子：

在實際工作中，這個方法常被用於進行機器演算法求解，或者是轉置矩陣的形式。

③隨機梯度下降

梯度下降有一個擴充套件性問題，當樣本點很大的時候，計算起來就會很慢，所以接下來又提出了隨機梯度下降演算法。

隨機梯度下降演算法計算起來很快，但是收斂的過程比較曲折，整體效果上，大多數時候它只能接近區域性最優解，而無法真正達到區域性最優解，適合用於較大訓練集的情況。

它的公式如圖所示：

3.比較最小二乘法與梯度下降：

介紹完最小二乘法和梯度下降之後，我們把兩者進行一個比較：

五．迴歸擴充套件

最後一部分是對於線性迴歸的擴充套件，主要介紹嶺迴歸與Lasso迴歸。

1.嶺迴歸：

其實就是在原本的方程里加入了I2範數，為什麼要加I2範數呢？I2範數就是一個懲罰項，使得模型的泛化能力更強，防止我們把引數求解出來之後，在預測過程中所產生模型訓練過擬合現象，在預測結果上達到預定效果。

2.Lasso迴歸：

它是加入了I1範數，I1的好處是存文件時，把某些待估係數輸送到鄰之間。從下圖中可以很直觀地看出嶺迴歸與Lasso迴歸的區別。

以上五大部分就是張老師要講解的主要內容，下面是最後的問答環節，我們一起來看看都有些什麼問題。

1.請問函式的推導過程是不是都要記清楚，還是能運用模型就可以了？

張老師：我們在學習演算法時，對演算法的基本原理要清楚，像線性迴歸的求參過程、最小二乘法、梯度下降法，對這些知識的掌握都要比較熟練，至於函式的推導過程不需要完全掌握，但對它的原理一定要清楚，否則就達不到預期效果，不知道如何去調優。

2.為什麼最小二乘法是最優方法？

張老師：最小二乘法只是求解線性迴歸的一種方法，這種方法是求座標軸實際值與目標值之間的差的平方，它的精度比較弱，適用的模型只有線性迴歸，在特徵非常多時，求解速度也會非常慢，導致模型無法求解成功，一般情況下，我們都是運用梯度下降法來求解引數值，它能逼近區域性最優解，所以我們更推薦梯度下降法。

3.歸一化怎麼應用？

張老師：歸一化有很多方法，用當前值減去平均值再除以最大值減最小值，這個是比較簡單的方法，但這個方法有一定的侷限性，比如樣本里面出現異常值，可能會對歸一化的順序產生一定影響，還有其它的一些方法。至於怎麼去應用，我們要根據具體的應用場景去選擇相應的方法。

以上就是本次線上直播的全部內容，相信通過本次學習，在實際工作當中，大家能更熟練地去運用線性迴歸演算法。想了解更多更詳細內容的小夥伴們，可以關注服務號：FMI飛馬網，點選選單欄飛馬直播，即可進行學習。

相關文章

03 迴歸演算法 - 線性迴歸求解 θ（最小二乘求解）
2018-10-06
演算法
線性迴歸——lasso迴歸和嶺迴歸（ridge regression）
2019-05-11
線性迴歸與邏輯迴歸
2019-07-08
邏輯迴歸
【機器學習】線性迴歸原理介紹
2019-01-17
機器學習
線性迴歸
2024-11-17
1.3 - 線性迴歸
2024-03-18
對比線性迴歸、邏輯迴歸和SVM
2018-08-13
邏輯迴歸
python實現線性迴歸之簡單迴歸
2020-04-29
Python
線性迴歸推導
2019-02-22
4-線性迴歸
2024-08-23
線性迴歸實戰
2021-05-29
1維線性迴歸
2022-04-08
線性迴歸總結
2020-12-26
多元線性迴歸模型
2020-12-03
模型
機器學習 | 線性迴歸與邏輯迴歸
2020-09-23
機器學習邏輯迴歸
線性迴歸-如何對資料進行迴歸分析
2020-12-21
正規方程法來求解線性迴歸模型引數
2024-11-17
模型
spark-mlib線性迴歸
2018-11-24
Spark
pytorch實現線性迴歸
2024-05-31
PyTorch
TensorFlow實現線性迴歸
2019-06-05
線性迴歸-程式碼庫
2024-08-27
PRML 迴歸的線性模型
2022-03-01
模型
資料分析：線性迴歸
2022-05-19
線性迴歸演算法
2022-07-04
演算法
Python學習筆記-StatsModels 統計迴歸（1）線性迴歸
2021-05-06
Python筆記
spss迴歸分析的基本步驟 spss線性迴歸怎麼做
2022-05-29
SPSS
R：alpha多樣性線性迴歸
2024-11-28
通俗理解線性迴歸(Linear Regression)
2020-09-11
EVIEWS 簡單線性迴歸 02
2020-11-11
View
一元線性迴歸模型
2020-09-28
模型
機器學習：線性迴歸
2024-11-19
機器學習
numpy梯度回傳線性迴歸
2024-08-17
梯度
線性迴歸基礎程式碼
2021-09-09
Softmax迴歸簡介
2020-12-28
機器學習簡介之基礎理論- 線性迴歸、邏輯迴歸、神經網路
2019-04-02
機器學習邏輯迴歸神經網路
貝葉斯線性迴歸簡介（附完整程式碼）
2018-04-25
【小白學AI】線性迴歸與邏輯迴歸（似然引數估計）
2020-08-02
AI邏輯迴歸
機器學習之線性迴歸
2020-02-07
機器學習