spark Ml 機器學習之線性迴歸

zhangshoutian發表於2018-01-18

本文版本選自spark 2.1.0

寫這篇文章之前已閱讀過官網api，演算法本身自認為自己手動寫，應該可以搞定（進一步優化不提）；但是官網卻看的我迷迷糊糊的，引數選擇和結果獲取，描述不夠清晰，寫這篇文字的目的就是為了理清所有官網沒有解答的謎團；

演算法本身比較簡單，網上文章也很多，本人自身也提不出更高大上的解決方案，所以演算法不再詳解；重點就是解讀官網的不足；

上程式碼：

val training = spark.read.format("libsvm")
      .load(pathFile+"data/mllib/linearRegression.txt")
    val lr = new LinearRegression()
      .setMaxIter(10)
      .setRegParam(0)
      .setElasticNetParam(0)

解讀：關於setElasticNetParam的原始碼描述有：

* This supports multiple types of regularization:
*  - none (a.k.a. ordinary least squares)
*  - L2 (ridge regression)
*  - L1 (Lasso)
*  - L2 + L1 (elastic net)

意思就是說：這支援多種型別的正則化操作。

具體方法描述為：

/**
 * Set the ElasticNet mixing parameter.
 * For alpha = 0, the penalty is an L2 penalty.
 * For alpha = 1, it is an L1 penalty.
 * For alpha in (0,1), the penalty is a combination of L1 and L2.
 * Default is 0.0 which is an L2 penalty.
 *
 * @group setParam
 */
@Since("1.4.0")
def setElasticNetParam(value: Double): this.type = set(elasticNetParam, value)
setDefault(elasticNetParam -> 0.0)

可以發現這個引數設定是用來設定L1,、L2的。

L1與L2規範是用來幹嘛的呢？簡單來說是為了處理過擬合的（後面有具體測試），下圖是一個形象描述；

L1正則化和L2正則化可以看做是損失函式的懲罰項。對於線性迴歸模型，使用L1正則化的模型建叫做Lasso迴歸，使用L2正則化的模型叫做Ridge迴歸（嶺迴歸）。下圖是Python中Lasso迴歸的損失函式，式中加號後面一項α||w||1即為L1正則化項。

下圖是Python中Ridge迴歸的損失函式，式中加號後面一項α||w||22即為L2正則化項。

結合setRegParam(),該函式為設定正則化引數，結合以上描述

推測spark ml的線性規劃完整函式為：min(1/2n||coefficients*x -y||^2^ +(elasticNetParam*L1-(1-elasticNetParam)*L2))

也就是說：正則化引數設定為0時，elasticNetParam的設定無意義。

下面繼續程式碼驗證，及其測試結果

 val lrModel = lr.fit(training)
    //Y=w*x+b 迴歸係數(w) and 截距(b)
    println(s"Coefficients: ${lrModel.coefficients} Intercept: ${lrModel.intercept}")
    //總結訓練集上的模型並列印出一些指標
    val trainingSummary = lrModel.summary
    println(s"numIterations: ${trainingSummary.totalIterations}")
    println(s"objectiveHistory: [${trainingSummary.objectiveHistory.mkString(",")}]")
    trainingSummary.residuals.show()//殘差
    println(s"RMSE: ${trainingSummary.rootMeanSquaredError}")//均方根誤差
    println(s"r2: ${trainingSummary.r2}")//判定係數，也稱為擬合優度，越接近1越好

測試資料為：【選擇最直觀的資料，不裝逼】，引數如上文所示

結果為：

Coefficients: [0.9999999999999993] Intercept: 1.000000000000001
numIterations: 1
objectiveHistory: [0.0]

測試資料為：正則化引數設定為0.1

結果為：

Coefficients: [1.0619069136918209] Intercept: 0.8124717577948491
numIterations: 1
objectiveHistory: [0.0]

正則化引數設定為：0.1，elasticNetParam為0.2

結果為：

Coefficients: [0.9908261029681737] Intercept: 0.9588982278855623
numIterations: 3
objectiveHistory: [0.5,0.4037043811427782,0.040903518280319406]

正則化引數設定為：0.1，elasticNetParam為0.8

結果為：

Coefficients: [0.9878122500298612] Intercept: 0.9651067649384861
numIterations: 3
objectiveHistory: [0.5,0.4116133463948107,0.06201518671563113]

根據結果分析公式min(1/2n||coefficients*x -y||^2^ +(elasticNetParam*L1-(1-elasticNetParam)*L2))，結論不坑
複雜的沒有測試，歡迎批評指正

機器學習之線性迴歸
2020-02-07
機器學習
機器學習：線性迴歸
2024-11-19
機器學習
機器學習：線性迴歸（下）
2024-11-26
機器學習
機器學習整理（線性迴歸）
2022-03-12
機器學習
機器學習 | 線性迴歸與邏輯迴歸
2020-09-23
機器學習邏輯迴歸
機器學習之線性迴歸(純python實現)
2019-03-04
機器學習Python
【機器學習】線性迴歸預測
2022-06-23
機器學習
機器學習5-線性迴歸
2021-01-20
機器學習
【機器學習】線性迴歸python實現
2019-01-17
機器學習Python
【機器學習】線性迴歸原理介紹
2019-01-17
機器學習
【機器學習】線性迴歸sklearn實現
2019-01-17
機器學習
機器學習實戰（一）—— 線性迴歸
2020-12-01
機器學習
機器學習-----線性迴歸淺談（Linear Regression）
2019-02-22
機器學習
機器學習回顧篇（3）：線性迴歸
2019-07-21
機器學習
機器學習之Logistic迴歸
2018-03-28
機器學習
機器學習--線性迴歸--梯度下降的實現
2020-10-08
機器學習梯度
機器學習入門：多變數線性迴歸
2021-09-11
機器學習變數
手擼機器學習演算法 - 線性迴歸
2021-06-11
機器學習演算法
【機器學習筆記】：大話線性迴歸（二）
2021-01-03
機器學習筆記
【機器學習筆記】：大話線性迴歸（一）
2021-01-06
機器學習筆記
spark-mlib線性迴歸
2018-11-24
Spark
機器學習簡介之基礎理論- 線性迴歸、邏輯迴歸、神經網路
2019-04-02
機器學習邏輯迴歸神經網路
機器學習之邏輯迴歸
2019-01-22
機器學習邏輯迴歸
機器學習之迴歸指標
2020-02-14
機器學習指標
模式識別與機器學習——迴歸的線性模型
2019-01-30
模式機器學習模型
TensorFlow.NET機器學習入門【2】線性迴歸
2021-12-23
機器學習
機器學習——線性迴歸-KNN-決策樹(例項)
2018-10-09
機器學習KNN
機器學習-cs229-線性迴歸-泰勒展開法
2020-09-28
機器學習
機器學習實戰之Logistic迴歸
2018-06-25
機器學習
從零開始學機器學習——線性和多項式迴歸
2024-09-29
機器學習
機器學習入門學習筆記：（2.1）線性迴歸理論推導
2019-02-15
機器學習筆記
有監督學習——線性迴歸
2023-03-10
吳恩達機器學習筆記 —— 3 線性迴歸回顧
2018-07-15
吳恩達機器學習筆記
[DataAnalysis]機器學習演算法——線性模型（邏輯迴歸+LDA）
2018-08-26
機器學習演算法模型邏輯迴歸LDA
機器學習（課堂筆記）Day04：線性迴歸法
2020-11-13
機器學習筆記
吳恩達機器學習系列1——單變數線性迴歸
2022-02-10
吳恩達機器學習變數
通用機器學習演算法：線性迴歸+決策樹+Xgboost
2021-09-09
機器學習演算法
機器學習程式碼筆記-2-簡單線性迴歸
2022-06-23
機器學習筆記
機器學習-樹迴歸
2020-12-25
機器學習

spark Ml 機器學習之 線性迴歸

相關文章

spark Ml 機器學習之線性迴歸