大俠幸會,在下全網同名[演算法金] 0 基礎轉 AI 上岸,多個演算法賽 Top [日更萬日,讓更多人享受智慧樂趣]
[Sebastian Raschka 2018] Model Evaluation, Model Selection, and Algorithm Selection in Machine Learning, https://arxiv.org/abs/1811.12808
摘要:本文主要討論了模型評估、模型選擇和演算法選擇的重要性,並回顧瞭解決這些任務的不同技術。文章強調了在小資料集上不推薦使用留出方法,而應使用bootstrap技術來評估效能的不確定性。在討論偏差-方差權衡時,文章比較了leave-one-out交叉驗證和k-折交叉驗證,並給出了選擇k值的實際建議。文章還展示了用於演算法對比的不同統計測試,並討論了處理多種對比的策略。最後,當資料集較小時,文章推薦使用5×2cv交叉驗證和巢狀交叉驗證來對比機器學習演算法。
1. 引言:關於模型評價的基本術語和技術
1.1 效能估計:泛化效能與模型選擇
在機器學習中,我們通常關心的是模型的泛化效能,也就是模型對未見過的資料的預測能力。為了評估模型的泛化效能,我們需要將資料集劃分為訓練集和測試集,使用訓練集來訓練模型,然後使用測試集來評估模型的效能。
此外,模型選擇是另一個重要的任務,它涉及到在一組候選模型中選擇最優模型。模型選擇的目標是找到一個在給定的評價指標下效能最好的模型。
1.2 假設和術語
在討論模型評價時,我們需要定義一些基本的術語。例如,"模型"通常指的是從資料中學習的預測函式;"演算法"指的是用於學習模型的過程;"效能度量"指的是用於評價模型的標準,如準確率、召回率等。
1.3 重複驗證和保留方法
重複驗證和保留方法是兩種常用的模型評價方法。
重複驗證是指多次使用不同的訓練集和測試集來評估模型的效能,然後取平均值作為最終的效能估計。
保留方法是指將資料集劃分為訓練集和測試集,然後使用訓練集來訓練模型,使用測試集來評估模型的效能。
2. 自舉和不確定性
2.1 概述
自舉是一種強大的統計技術,它可以用來估計一個統計量的抽樣分佈。在機器學習中,自舉方法可以用來估計模型效能的不確定性,從而幫助我們更好地理解模型的穩定性和可靠性。
2.2 重取樣
重取樣是自舉方法的核心。它是指從原始資料集中隨機抽取樣本,形成新的資料集。透過重複這個過程,我們可以生成多個不同的資料集,然後在這些資料集上訓練和評估模型,從而得到模型效能的多個估計。
2.3 重複保留驗證
重複保留驗證是一種常用的模型評價方法。它是指將資料集劃分為訓練集和測試集,然後使用訓練集來訓練模型,使用測試集來評估模型的效能。這個過程會重複多次,每次都使用不同的訓練集和測試集,最後將多次評估的結果進行平均,得到模型效能的最終估計。
2.4 自舉方法和經驗置信區間
自舉方法可以用來估計模型效能的不確定性,這通常透過計算模型效能的經驗置信區間來實現。經驗置信區間是指在多次重取樣和評估的過程中,模型效能的變化範圍。例如,如果我們的模型在100次重取樣和評估的過程中,準確率的範圍是70%到80%,那麼我們就可以說,我們對模型的準確率有70%到80%的信心。
3. 交叉驗證和超引數最佳化
3.1 概述
交叉驗證和超引數最佳化是機器學習中的兩個核心概念。交叉驗證是一種評估模型泛化效能的方法,它透過將資料集分割為多個子集,並輪流使用其中一個子集作為測試集,其餘子集作為訓練集,來評估模型的效能。超引數最佳化則是在給定的超引數空間中尋找最優超引數的過程,這個過程通常涉及到搜尋演算法和效能評估。
3.2 關於超引數和模型選擇
超引數是在訓練模型之前就需要確定的引數,比如學習率、正則化引數等。選擇合適的超引數對模型的效能有很大影響。模型選擇則是在多個模型(可能是不同型別的模型,或者是同一型別模型但具有不同超引數的模型)中選擇效能最好的模型。這個過程通常涉及到交叉驗證和效能評估。
3.3 三路保留方法用於超引數調優
三路保留方法是一種用於超引數調優的方法,它將資料集劃分為訓練集、驗證集和測試集。訓練集用於訓練模型,驗證集用於調整超引數,測試集用於評估最終模型的效能。這種方法可以有效地防止過擬合,並提供了一個公平的效能評估。
3.4 k-折交叉驗證簡介
k-折交叉驗證是一種常用的交叉驗證方法,它將資料集劃分為k個子集,然後輪流使用其中一個子集作為測試集,其餘子集作為訓練集,來評估模型的效能。這種方法可以有效地利用有限的資料,並提供了一個公平的效能評估。
3.5 特殊情況:2-折和留一法交叉驗證
2-折交叉驗證和留一法交叉驗證是k-折交叉驗證的兩種特殊情況。2-折交叉驗證將資料集劃分為兩個子集,留一法交叉驗證則將每個樣本單獨作為測試集,其餘樣本作為訓練集。這兩種方法各有優缺點,需要根據具體的應用場景來選擇。
3.6 k-折交叉驗證和偏差-方差權衡
選擇合適的k值是k-折交叉驗證中的一個重要問題。k值的選擇需要在偏差和方差之間找到一個平衡。一般來說,k值越大,偏差越小,方差越大;k值越小,偏差越大,方差越小。因此,選擇合適的k值是一個需要權衡的問題。
3.7 透過k-折交叉驗證進行模型選擇
k-折交叉驗證可以用於模型選擇。透過在不同的訓練集上訓練模型,並在對應的測試集上評估模型的效能,我們可以選擇效能最好的模型。這種方法可以有效地利用有限的資料,並提供了一個公平的效能評估。
4. 演算法比較
4.1 概述
在機器學習中,我們經常需要比較不同的演算法以確定哪種演算法在特定任務上的效能更好。這通常涉及到在相同的資料集上訓練和評估不同的模型,然後使用某種效能度量來比較它們的效能。
4.2 測試比例的差異
在比較兩個模型的效能時,我們需要使用統計測試來確定效能差異是否顯著。這通常涉及到計算效能度量的差值,並檢驗這個差值是否顯著大於零。如果差值顯著大於零,那麼我們就可以說一個模型的效能顯著優於另一個模型。
4.3 使用McNemar測試比較兩個模型
McNemar測試是一種用於比較兩個模型效能的統計測試。它主要用於比較兩個模型在同一資料集上的錯誤率。McNemar測試的基本思想是比較兩個模型在同一資料集上的錯誤預測的數量,如果一個模型的錯誤預測數量顯著少於另一個模型,那麼我們就可以說這個模型的效能優於另一個模型。
References
[Sebastian Raschka 2018] Model Evaluation, Model Selection, and Algorithm Selection in Machine Learning https://arxiv.org/abs/1811.12808
[Alpaydin, 1999]Alpaydin, E. (1999).Combined 5x2cv F test for comparing supervised classification learning algorithms.Neural Computation, 11(8):1885–1892.
[Bengio and Grandvalet, 2004]Bengio, Y. and Grandvalet, Y. (2004).No unbiased estimator of the variance of k-fold cross-validation.Journal of Machine Learning Research, 5(Sep):1089–1105.
[Bonferroni, 1936]Bonferroni, C. (1936).Teoria statistica delle classi e calcolo delle probabilita.Pubblicazioni del R Istituto Superiore di Scienze Economiche e Commericiali di Firenze, 8:3–62.
[Breiman et al., 1984]Breiman, L., Friedman, J., Stone, C. J., and Olshen, R. A. (1984).Classification and regression trees.CRC press. [Cochran, 1950]Cochran, W. G. (1950).The comparison of percentages in matched samples.Biometrika, 37(3/4):256–266.
[Dietterich, 1998]Dietterich, T. G. (1998).Approximate statistical tests for comparing supervised classification learning algorithms.Neural computation, 10(7):1895–1923.
[Dunn, 1961]Dunn, O. J. (1961).Multiple comparisons among means.Journal of the American statistical association, 56(293):52–64.
[Edwards, 1948]Edwards, A. L. (1948).Note on the “correction for continuity” in testing the significance of the difference between correlated proportions.Psychometrika, 13(3):185–187.
[Efron, 1981]Efron, B. (1981).Nonparametric standard errors and confidence intervals.Canadian Journal of Statistics, 9(2):139–158.
[Efron, 1983]Efron, B. (1983).Estimating the error rate of a prediction rule: improvement on cross-validation.Journal of the American Statistical Association, 78(382):316–331.
[Efron, 1992]Efron, B. (1992).Bootstrap methods: another look at the Jackknife.In Breakthroughs in Statistics, pages 569–593. Springer.
[Efron and Tibshirani, 1997]Efron, B. and Tibshirani, R. (1997).Improvements on cross-validation: the .632+ bootstrap method.Journal of the American Statistical Association, 92(438):548–560.
[Efron and Tibshirani, 1994]Efron, B. and Tibshirani, R. J. (1994).An Introduction to the Bootstrap.CRC press.
[Fleiss et al., 2013]Fleiss, J. L., Levin, B., and Paik, M. C. (2013).Statistical Methods for Rates and Proportions.John Wiley & Sons.
[Hastie et al., 2009]Hastie, T., Tibshirani, R., and Friedman, J. H. (2009).In The Elements of Statistical Learning: Data Mining, Inference, and Prediction.Springer, New York.
[Hawkins et al., 2003]Hawkins, D. M., Basak, S. C., and Mills, D. (2003).Assessing model fit by cross-validation.Journal of Chemical Information and Computer Sciences, 43(2):579–586.
[Iizuka et al., 2003]Iizuka, N., Oka, M., Yamada-Okabe, H., Nishida, M., Maeda, Y., Mori, N., Takao, T., Tamesa, T., Tangoku, A., Tabuchi, H., et al. (2003).Oligonucleotide microarray for prediction of early intrahepatic recurrence of hepatocellular carcinoma after curative resection.The lancet, 361(9361):923–929.
[James et al., 2013]James, G., Witten, D., Hastie, T., and Tibshirani, R. (2013).In An Introduction to Statistical Learning: With Applications in R.Springer, New York.
[Kim, 2009]Kim, J.-H. (2009).Estimating classification error rate: Repeated cross-validation, repeated hold-out and bootstrap.Computational Statistics & Data Analysis, 53(11):3735–3745.
[Kohavi, 1995]Kohavi, R. (1995).A study of cross-validation and bootstrap for accuracy estimation and model selection.International Joint Conference on Artificial Intelligence, 14(12):1137–1143.
[Kuncheva, 2004]Kuncheva, L. I. (2004).Combining Pattern Classifiers: Methods and Algorithms.John Wiley & Sons.
[Looney, 1988]Looney, S. W. (1988).A statistical technique for comparing the accuracies of several classifiers.Pattern Recognition Letters, 8(1):5–9.
[McNemar, 1947]McNemar, Q. (1947).Note on the sampling error of the difference between correlated proportions or percentages.Psychometrika, 12(2):153–157.
[Molinaro et al., 2005]Molinaro, A. M., Simon, R., and Pfeiffer, R. M. (2005).Prediction error estimation: a comparison of resampling methods.Bioinformatics, 21(15):3301–3307.
[Pedregosa et al., 2011]Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., Prettenhofer, P., Weiss, R., Dubourg, V., et al. (2011).Scikit-learn: Machine learning in python.Journal of Machine Learning Research, 12(Oct):2825–2830.
[Perneger, 1998]Perneger, T. V. (1998).What’s wrong with bonferroni adjustments.Bmj, 316(7139):1236–1238.
[Raschka, 2018]Raschka, S. (2018).Mlxtend: Providing machine learning and data science utilities and extensions to python’s scientific computing stack.The Journal of Open Source Software, 3(24).
[Refaeilzadeh et al., 2007]Refaeilzadeh, P., Tang, L., and Liu, H. (2007).On comparison of feature selection algorithms.In Proceedings of AAAI Workshop on Evaluation Methods for Machine Learning II, pages 34–39.
[Rothman, 1990]Rothman, K. J. (1990).No adjustments are needed for multiple comparisons.Epidemiology, pages 43–46.
[Tan et al., 2005]Tan, P.-N., Steinbach, M., and Kumar, V. (2005).In Introduction to Data Mining.Pearson Addison Wesley, Boston.
[Varma and Simon, 2006]Varma, S. and Simon, R. (2006).Bias in error estimation when using cross-validation for model selection.BMC bioinformatics, 7(1):91.
[Varoquaux, 2017]Varoquaux, G. (2017).Cross-validation failure: small sample sizes lead to large error bars.Neuroimage.
[Westfall et al., 2010]Westfall, P. H., Troendle, J. F., and Pennello, G. (2010).Multiple McNemar tests.Biometrics, 66(4):1185–1191.
[ 演算法金,碎碎念 ]
全網同名,日更萬日,讓更多人享受智慧樂趣
煩請大俠多多 分享、在看、點贊,助力演算法金又猛又持久、很黃很 BL 的日更下去;我們一起,讓更多人享受智慧樂趣
同時邀請大俠 關注、星標 演算法金,圍觀日更萬日,助你功力大增、笑傲江湖