換個新方式實現ML調優：3D視覺化了解下！

人工智慧頻道發表於2018-11-20

原文網址 : http://blog.itpub.net/31545819/viewspace-2220768/

這篇文章的大部分內容是互動視覺化，都是可以懸停、縮放和移動的。在計算機上閱讀比在手機上閱讀更好，如果一定要用手機的話，橫向模式會比縱向模式更好一些。（原文連結：https://towardsdatascience.com/using-3d-visualizations-to-tune-hyperparameters-of-ml-models-with-python-ba2885eab2e9）

如果你正在嘗試開發Kaggle的解決方案，如一場Rossmann商店銷售競賽。那麼您可能已經完成了許多特徵工程並建立了大量的新變數，它們可以幫助您更好地預測未來的銷售。

您已經建立了一個隨機森林，並且您可能正嘗試找到其最佳超引數。您想要評估1000種可能的組合，可以執行隨機搜尋以僅分析它們的子樣本或網格搜尋來探索完整的引數網格。

換個新方式實現ML調優：3D視覺化了解下！

一些引數在對數刻度上均勻分佈。你可以用np.logspace做到這一點

如果你做後者，現在可能會有一些資料。使用rf_gridsearch.best_params_，您可以獲得在測試集上產生的最佳結果的3個引數（max_features：0.25，min_samples_split：13，n_estimators：45）。但是，如果您想要在3個維度上視覺化所訓練的所有隨機森林的表現，該怎麼辦？

這些流行語是什麼意思？

決策樹是一種受監督的機器學習演算法，在給定資料集的情況下，遞迴地將其劃分為具有彼此更相似的目標變數的子集。給定一些用於訓練它的自變數的新資料，它可以預測因變數。

換個新方式實現ML調優：3D視覺化了解下！

用於迴歸的決策樹

隨機森林（從現在開始的RF）是決策樹的集合，其在完整訓練資料的子集上訓練並使用特徵的子集。這允許他們具有較少相關的個體決策樹，從而它們將更好地概括並且具有更少的過度擬合。它們比神經網路訓練更快，並且是解決結構化資料的分類和迴歸問題的第一次嘗試。

我們可以在RF中設定幾個超引數。在scikit-learn的文件中閱讀所有這些內容。其中最重要的是：

n_estimators：RF中的樹數。
min_samples_split：子集（也稱為節點）中的最小樣本數，以將其拆分為兩個以上的子集。與min_samples_leaf和max_depth相關
max_features：拆分節點時要考慮的最大特徵數（獨立變數）

RF的複雜性隨著更高的n_estimators，max_features和更低的min_samples_split而增加。

交叉驗證是一種用於在機器學習模型中查詢最佳超引數的技術。為了執行它，我們必須將資料劃分為3個子集：一組訓練集（用於訓練模型）、一組驗證集（用於優化超引數）和一組測試集（用於檢查模型最終的效能，就好像我們已經在生產中了）。我們使用一些得分來評估模型的效能，該得分將根據我們試圖解決的問題型別（迴歸、分類、聚類......）而變化。

對於迴歸，R2（R平方）執行良好。一般來說，模型越複雜，在訓練組中的得分就越高。在測試集上，它也會隨著模型的複雜性而增加，但在某一點之後它不會增加反而也會減少。我們用交叉驗證做的就是試圖找到這一點。

換個新方式實現ML調優：3D視覺化了解下！