機器學習中調參的基本思想

CDA 資料分析師發表於2019-03-11

原文網址 : https://blog.csdn.net/yoggiecda/article/details/88396575

我發現大多數的機器學習相關的書都是遍歷各種演算法和案例，為大家講解各種各樣演算法的原理和用途，但卻對調參探究甚少。這中間有許多原因，其一是因為，調參的方式總是根據資料的狀況而定，所以沒有辦法一概而論；其二是因為，其實大家也都沒有特別好的辦法。

通過畫學習曲線，或者網格搜尋，我們能夠探索到調參邊緣（代價可能是訓練一次模型要跑三天三夜），但是在現實中，高手調參恐怕還是多依賴於經驗，而這些經驗，來源於：1）非常正確的調參思路和方法，2）對模型評估指標的理解，3）對資料的感覺和經驗，4）用洪荒之力去不斷地嘗試。

我們也許無法學到高手們多年累積的經驗，但我們可以學習他們對模型評估指標的理解和調參的思路。

那我們首先來講講正確的調參思路。模型調參，第一步是要找準目標：我們要做什麼？一般來說，這個目標是提升某個模型評估指標，比如對於隨機森林來說，我們想要提升的是模型在未知資料上的準確率（由score或oob_score_來衡量）。找準了這個目標，我們就需要思考：模型在未知資料上的準確率受什麼因素影響？在機器學習中，我們用來衡量模型在未知資料上的準確率的指標，叫做泛化誤差（Genelization error）。

泛化誤差

當模型在未知資料（測試集或者袋外資料）上表現糟糕時，我們說模型的泛化程度不夠，泛化誤差大，模型的效果不好。泛化誤差受到模型的結構（複雜度）影響。看下面這張圖，它準確地描繪了泛化誤差與模型複雜度的關係，當模型太複雜，模型就會過擬合，泛化能力就不夠，所以泛化誤差大。當模型太簡單，模型就會欠擬合，擬合能力就不夠，所以誤差也會大。只有當模型的複雜度剛剛好的才能夠達到泛化誤差最小的目標。

RF5

那模型的複雜度與我們的引數有什麼關係呢？對樹模型來說，樹越茂盛，深度越深，枝葉越多，模型就越複雜。所以樹模型是天生位於圖的右上角的模型，隨機森林是以樹模型為基礎，所以隨機森林也是天生複雜度高的模型。隨機森林的引數，都是向著一個目標去：減少模型的複雜度，把模型往影像的左邊移動，防止過擬合。當然了，調參沒有絕對，也有天生處於影像左邊的隨機森林，所以調參之前，我們要先判斷，模型現在究竟處於影像的哪一邊。

泛化誤差的背後其實是“偏差-方差困境”，原理十分複雜，無論你翻開哪一本書，你都會看見長篇的數學論證和每個字都能看懂但是連在一起就看不懂的文字解釋。在下一節偏差vs方差中，我用最簡單易懂的語言為大家解釋了泛化誤差背後的原理，大家選讀。那我們只需要記住這四點：

1）模型太複雜或者太簡單，都會讓泛化誤差高，我們追求的是位於中間的平衡點

2）模型太複雜就會過擬合，模型太簡單就會欠擬合

3）對樹模型和樹的整合模型來說，樹的深度越深，枝葉越多，模型越複雜

4）樹模型和樹的整合模型的目標，都是減少模型複雜度，把模型往影像的左邊移動

那具體每個引數，都如何影響我們的複雜度和模型呢？我們一直以來調參，都是在學習曲線上輪流找最優值，盼望能夠將準確率修正到一個比較高的水平。然而我們現在瞭解了隨機森林的調參方向：降低複雜度，我們就可以將那些對複雜度影響巨大的引數挑選出來，研究他們的單調性，然後專注調整那些能最大限度讓複雜度降低的引數。對於那些不單調的引數，或者反而會讓複雜度升高的引數，我們就視情況使用，大多時候甚至可以退避。基於經驗，我對各個引數對模型的影響程度做了一個排序。在我們調參的時候，大家可以參考這個順序。

引數	對模型在未知資料上的評估效能的影響	影響程度
n_estimators	提升至平穩，n_estimators↑，不影響單個模型的複雜度	⭐⭐⭐⭐
max_depth	有增有減，預設最大深度，即最高複雜度，向複雜度降低的方向調參max_depth↓，模型更簡單，且向影像的左邊移動	⭐⭐⭐
min_samples_leaf	有增有減，預設最小限制1，即最高複雜度，向複雜度降低的方向調參min_samples_leaf↑，模型更簡單，且向影像的左邊移動	⭐⭐
min_samples_split	有增有減，預設最小限制2，即最高複雜度，向複雜度降低的方向調參min_samples_split↑，模型更簡單，且向影像的左邊移動	⭐⭐
max_features	有增有減，預設auto，是特徵總數的開平方，位於中間複雜度，既可以向複雜度升高的方向，也可以向複雜度降低的方向調參 max_features↓，模型更簡單，影像左移 max_features↑，模型更復雜，影像右移 max_features是唯一的，既能夠讓模型更簡單，也能夠讓模型更復雜的引數，所以在調整這個引數的時候，需要考慮我們調參的方向	⭐
criterion	有增有減，一般使用gini	看具體情況

有了以上的知識儲備，我們現在也能夠通過引數的變化來了解，模型什麼時候到達了極限，當複雜度已經不能再降低的時候，我們就不必再調整了，因為調整大型資料的引數是一件非常費時費力的事。除了學習曲線和網格搜尋，我們現在有了基於對模型和正確的調參思路的“推測”能力，這能夠讓我們的調參能力更上一層樓。

偏差 vs 方差

一個整合模型(f)在未知資料集(D)上的泛化誤差E(f;D)，由方差(var)，偏差(bais)和噪聲(ε)共同決定。
$E(f;D) = bias^2(x) + var(x) +\varepsilon^2$

關鍵概念：偏差與方差
觀察下面的影像，每個點就是整合演算法中的一個基評估器產生的預測值。紅色虛線代表著這些預測值的均值，而藍色的線代表著資料本來的面貌。偏差：模型的預測值與真實值之間的差異，即每一個紅點到藍線的距離。在整合演算法中，每個基評估器都會有自己的偏差，整合評估器的偏差是所有基評估器偏差的均值。模型越精確，偏差越低。方差：反映的是模型每一次輸出結果與模型預測值的平均水平之間的誤差，即每一個紅點到紅色虛線的距離，衡量模型的穩定性。模型越穩定，方差越低。

關鍵概念：偏差與方差

觀察下面的影像，每個點就是整合演算法中的一個基評估器產生的預測值。紅色虛線代表著這些預測值的均值，而藍色的線代表著資料本來的面貌。

偏差：模型的預測值與真實值之間的差異，即每一個紅點到藍線的距離。在整合演算法中，每個基評估器都會有自己的偏差，整合評估器的偏差是所有基評估器偏差的均值。模型越精確，偏差越低。

方差：反映的是模型每一次輸出結果與模型預測值的平均水平之間的誤差，即每一個紅點到紅色虛線的距離，衡量模型的穩定性。模型越穩定，方差越低。

RFC4

其中偏差衡量模型是否預測得準確，偏差越小，模型越“準”；而方差衡量模型每次預測的結果是否接近，即是說方差越小，模型越“穩”；噪聲是機器學習無法干涉的部分，為了讓世界美好一點，我們就不去研究了。**一個好的模型，要對大多數未知資料都預測得”準“又”穩“。**即是說，當偏差和方差都很低的時候，模型的泛化誤差就小，在未知資料上的準確率就高。

	偏差大	偏差小
方差大	模型不適合這個資料換模型	過擬合模型很複雜對某些資料集預測很準確對某些資料集預測很糟糕
方差小	欠擬合模型相對簡單預測很穩定但對所有的資料預測都不太準確	泛化誤差小，我們的目標

通常來說，方差和偏差有一個很大，泛化誤差都會很大。然而，方差和偏差是此消彼長的，不可能同時達到最小值。這個要怎麼理解呢？來看看下面這張圖：

從圖上可以看出，模型複雜度大的時候，方差高，偏差低。偏差低，就是要求模型要預測得“準”。模型就會更努力去學習更多資訊，會具體於訓練資料，這會導致，模型在一部分資料上表現很好，在另一部分資料上表現卻很糟糕。模型泛化性差，在不同資料上表現不穩定，所以方差就大。而要儘量學習訓練集，模型的建立必然更多細節，複雜程度必然上升。所以，複雜度高，方差高，總泛化誤差高。

相對的，複雜度低的時候，方差低，偏差高。方差低，要求模型預測得“穩”，泛化性更強，那對於模型來說，它就不需要對資料進行一個太深的學習，只需要建立一個比較簡單，判定比較寬泛的模型就可以了。結果就是，模型無法在某一類或者某一組資料上達成很高的準確度，所以偏差就會大。所以，複雜度低，偏差高，總泛化誤差高。

**我們調參的目標是，達到方差和偏差的完美平衡！**雖然方差和偏差不能同時達到最小值，但他們組成的泛化誤差卻可以有一個最低點，而我們就是要尋找這個最低點。對複雜度大的模型，要降低方差，對相對簡單的模型，要降低偏差。隨機森林的基評估器都擁有較低的偏差和較高的方差，因為決策樹本身是預測比較”準“，比較容易過擬合的模型，裝袋法本身也要求基分類器的準確率必須要有50%以上。所以以隨機森林為代表的裝袋法的訓練過程旨在降低方差，即降低模型複雜度，所以隨機森林引數的預設設定都是假設模型本身在泛化誤差最低點的右邊。

所以，我們在降低複雜度的時候，本質其實是在降低隨機森林的方差，隨機森林所有的引數，也都是朝著降低方差的目標去。有了這一層理解，我們對複雜度和泛化誤差的理解就更上一層樓了，對於我們調參，也有了更大的幫助。

關於方差-偏差的更多內容，大家可以參考周志華的《機器學習》。

機器學習狗太苦逼了！自動化調參哪家強？
2018-11-26
機器學習
機器學習中的元學習
2024-03-13
機器學習
機器學習常見演算法效能比較與調參建議
2018-08-28
機器學習演算法
機器學習中的 CatBoost
2024-03-07
機器學習
深度學習調參tricks總結！
2020-10-01
深度學習
深度學習調參tricks總結
2020-10-03
深度學習
深度學習模型調參總結
2021-08-27
深度學習模型
機器學習股票價格預測從爬蟲到預測-預測與調參
2019-02-24
機器學習爬蟲
機器學習學習中，數學最重要！
2018-10-24
機器學習
我們該如何學習機器學習中的數學
2018-08-04
機器學習
機器學習中的概率統計
2019-03-17
機器學習
SAP戰略中的機器學習
2019-04-12
機器學習
機器學習中的過擬合
2019-02-13
機器學習
AutoTiKV：基於機器學習的資料庫調優
2019-10-10
機器學習資料庫
2020年深度學習調參技巧合集
2020-10-21
深度學習
機器學習-學習率：從理論到實戰，探索學習率的調整策略
2023-12-05
機器學習
通俗講明白機器學習中的學習問題 - svpino
2021-03-02
機器學習
【機器學習】機器學習簡介
2018-11-29
機器學習
機器之心邀請您參加2018全球機器學習技術大會
2018-08-31
機器學習
機器學習中的維度災難
2018-07-31
機器學習
機器學習中的隱私保護
2020-07-20
機器學習
分散式機器學習中的模型聚合
2021-12-02
分散式機器學習模型
格物致知—機器學習應用效能調優
2019-04-05
機器學習
機器學習在啟動耗時測試中的應用及模型調優（一）
2018-07-05
機器學習模型
《用Python動手學機器學習》中的網址
2021-02-23
Python機器學習
機器學習中資料清洗的藝術
2019-08-23
機器學習
機器學習中的世代、迭代和批大小
2020-11-14
機器學習
分散式機器學習中的模型架構
2021-12-05
分散式機器學習模型架構
機器學習中 TP FP TN FN的概念
2022-06-23
機器學習
[python學習]機器學習 -- 感知機
2020-10-19
Python機器學習
【機器學習】--Python機器學習庫之Numpy
2018-04-06
機器學習Python
大型機器學習【Coursera 史丹佛機器學習】
2021-09-09
機器學習
（一）機器學習和機器學習介紹
2021-09-09
機器學習
從 Quora 的 187 個問題中學習機器學習和 NLP
2018-04-12
機器學習
機器學習-整合學習
2019-05-12
機器學習
如何學習機器學習
2019-02-01
機器學習
把ChatGPT調教成機器學習專家，以邏輯迴歸模型的學習為例
2023-05-12
ChatGPT機器學習邏輯迴歸模型
【機器學習】深度學習與經典機器學習的優劣勢一覽
2018-04-22
機器學習深度學習

機器學習中調參的基本思想

相關文章