Spark2 Model selection and tuning 模型選擇與調優

智慧先行者發表於2016-12-22

Model selection模型選擇

　　ML中的一個重要任務是模型選擇，或使用資料為給定任務找到最佳的模型或引數。這也稱為調優。可以對諸如Logistic迴歸的單獨Estimators進行調整，或者對包括多個演算法，特徵和其他步驟的整個Pipeline進行調整。使用者可以一次調整整個Pipeline，而不必單獨調整Pipeline中的每個元素。

MLlib支援使用CrossValidator和TrainValidationSplit等工具進行模型選擇。這些工具需要以下items：
    Estimator：要調整的algorithm or Pipeline
    Set of ParamMaps：可以選擇的引數，有時稱為“parameter grid”
    Evaluator：衡量擬合模型對測試資料支援的有多好

在高階別，這些模型選擇工具的工作如下：

    將輸入資料分成單獨的訓練和測試資料集。
    對於每個（訓練，測試）對，遍歷ParamMap的集合：
        對於每個ParamMap，它們使用這些引數擬合Estimator，獲得擬合的Model，並使用Evaluator評估Model的效能。
    選擇由效能最佳的引數集合生成的模型。

　　Evaluator可以是用於迴歸問題的RegressionEvaluator，用於二進位制資料的BinaryClassificationEvaluator，用於多類問題的MulticlassClassificationEvaluator。每個evaluator中的“setMetricName方法”是一個用於選擇最佳ParamMap的預設度量。

為了幫助構造parameter grid，使用者可以使用ParamGridBuilder實用程式。

Cross-Validation交叉驗證
　　CrossValidator開始於將資料集分割為一組folds，用作單獨的訓練和測試資料集。例如，k = 3 folds，CrossValidator將生成3個“資料集對(訓練，測試)”，其中每個資料集使用2/3的資料進行訓練和1/3的測試。為了評估特定的ParamMap，通過在3個不同“資料集對”上擬合Estimator，CrossValidator為3個Models計算平均評估度量。

　　在識別最好的ParamMap後，CrossValidator最終使用最好的ParamMap和整個資料集重新匹配Estimator。

　　注意，在parameters grid上的CrossValidator是非常耗費資源。然而，它也是用於選擇引數的好的公認的方法，比啟發式手動調優在統計上更好。

Train-Validation Split

　　除了CrossValidator，Spark還提供TrainValidationSplit用於超引數調優。 TrainValidationSplit只評估“每個引數的組合”一次，而不是在CrossValidator的情況下k次。因此，TrainValidationSplit耗費的資源比CrossValidator少一些，但是當訓練資料集不夠大時，不會產生可靠的結果。

　　與CrossValidator不同，TrainValidationSplit建立一個“資料集對(訓練,測試)”。它使用trainRatio引數將資料集拆分為這兩個部分。例如，trainRatio = 0.75

，TrainValidationSplit將生成訓練和測試資料集對，其中75％的資料用於訓練，25％用於驗證。

　　像CrossValidator，TrainValidationSplit最終使用最好的ParamMap和整個dataset擬合Estimator。

【模型評估與選擇】sklearn.model_selection.KFold
2018-07-03
模型
Spark 模型選擇和調參
2020-09-28
Spark模型
簡單選擇排序(Simple Selection Sort)
2021-04-03
排序
selection_Sort(選擇排序演算法）
2021-01-31
排序演算法
正則化與模型選擇
2019-01-25
模型
Flutter 自定義輸入框Selection選單和選擇器
2019-08-05
Flutter
透過案例學調優之--Oracle Time Model（時間模型）
2016-05-25
Oracle模型
共享池的調整與優化(Shared pool Tuning)
2011-10-11
優化
sql監控與調優(sql monitoring and tuning) （轉載）
2013-04-17
SQL
模型調優
2018-12-24
模型
從模型選擇到超參調整：如何為機器學習專案選擇演算法
2017-03-12
模型機器學習演算法
[譯] D3.js 巢狀選擇集 (Nested Selection)
2018-06-26
JS巢狀
在螢幕上多項選擇示例(More on selection screens)
2007-12-07
oracle sql tuning 2--調優工具
2009-12-16
OracleSQL
機器學習筆記——模型選擇與正則化
2020-10-17
機器學習筆記模型
知識總結：模型評估與選擇
2017-12-25
模型
機器學習之模型選擇
2020-02-14
機器學習模型
Tomcat執行緒模型 BIO模型原始碼與調優
2018-04-15
Tomcat執行緒模型原始碼
機器學習-學習筆記(二) --> 模型評估與選擇
2022-06-09
機器學習筆記模型
CSS 基礎(盒模型、選擇器、權重、優先順序)
2018-09-06
CSS模型
11_二值選擇模型
2024-05-03
模型
VSCode 擴充套件選擇快捷鍵外掛 Quick and Simple Text Selection
2020-11-13
VSCode套件UI
選擇優化選項的方案
2008-12-22
優化
CSS ID選擇器與CLASS選擇器
2015-08-22
CSS
網路IO模型-非同步選擇模型(Delphi版)
2020-10-14
模型非同步
決策樹模型(2)特徵選擇
2024-03-26
模型特徵
機器學習演算法筆記之7：模型評估與選擇
2020-04-06
機器學習演算法筆記模型
《機器學習》第二章模型評估與選擇筆記1
2017-10-11
機器學習模型筆記
Django模型model
2017-11-12
Django模型
CSS 選擇器效能優化
2019-01-14
CSS優化
IT優化級別的選擇
2011-06-30
優化
軟體效能測試分析與調優實踐之路-Java應用程式的效能分析與調優-手稿節選
2022-03-01
Java
MindSpore模型精度調優實戰：常用的定位精度除錯調優思路
2021-07-13
模型除錯
模型Bean：Model Bean
2015-10-21
模型Bean
css 選擇器優先順序
2018-05-24
CSS
選擇同步雲盤工具？這些值得一試的優秀選擇！
2023-10-12
Markov Model 馬可夫模型 & Hidden Markov Model 隱馬可夫模型
2016-11-28
模型
為什麼選擇無伺服器模型？
2022-03-07
伺服器模型

Spark2 Model selection and tuning 模型選擇與調優

Train-Validation Split

相關文章