整合學習-偏差與方差

Rclear發表於2022-04-18

原文網址 : https://www.cnblogs.com/rainlane/p/16158313.html

偏差與方差

偏差(Bias)

用所有可能的訓練資料集訓練出的所有模型的輸出的平均值與真實模型的輸出值之間的差異。含義：度量了學習演算法的期望預測與真實結果的偏離程度，即刻畫了學習演算法本身的擬合能力。

其數學定義為 $bias^2(x) = (\overline{f}(x) - y)^2$

方差(variance)

不同的訓練資料集訓練出的模型輸出值之間的差異。含義：度量了同樣大小的訓練集的變動所導致的學習效能的變化，即刻畫了資料擾動所造成的影響。

其數學定義為
$var(x) = {\mathbb{E}}_{D}[(f(x;D) - \overline{f}(x))^2] $

而泛化誤差也就是錯誤率$error = bias^2(x) + var(x) + \epsilon^2$,其中$\epsilon$為當前學習任務上的噪聲。

偏差-方差窘境

在訓練不足時，學習器的擬合能力不夠強，訓練資料的擾動不足以使學習器產生顯著變化，此時偏差主導了泛化錯誤率；隨著訓練程度的加深，學習器的擬合能力逐漸增強，訓練資料發生的擾動漸漸能被學習器學到，方差逐漸主導了泛化錯誤率；在訓練程度充足後，學習器的擬合能力已經非常強，訓練資料發生的輕微擾動都會導致學習器發生顯著變化，若訓練資料自身的、非全域性的特性被學習器學到了，則將發生過擬合。

為什麼能降低方差

對於每個樣本$x$，假設在不同資料集上學習得到的模型對樣本的輸出服從某種分佈$\mathcal{L},G_1(x),G_2(x),\ldots,G_n(x)$為來自分佈獨立同分布的隨機變數，Bagging的集策略為對弱學習器求平均，即得到模型$F(x) = \frac{G_1(x)+G_2(x)+\ldots+G_n(x)}{n}$

設隨機變數$Gi$的方差為$\delta^2$,則

\[var(F(x))=Var(\frac{G_1(x)+G_2(x)+\ldots+G_n(x)}{n}) = Var(\frac{G_1(x)}{n}+\frac{G_2(x)}{n}+\ldots+\frac{G_n(x)}{n}) = Var(\frac{\delta^2}{n^2}) * n = \frac{\delta^2}{n}\]

可以看到Bagging整合之後方差變小了，也就是說在不同資料集上訓練得到的模型對樣本的預測值之間的差距變小。

若各子模型完全相同，而不是完全獨立，則

\[Var(F(x))=Var(\frac{G_1(x)+G_2(x)+\ldots+G_n(x)}{n}) = Var(\frac{G_1(x)}{n}+\frac{G_2(x)}{n}+\ldots+\frac{G_n(x)}{n}) = \delta^2\]

此時並不會降低variance。bagging方法得到的各子模型是有一定相關性的，屬於上面兩個極端狀況的中間態，因此可以一定程度降低variance。但對於Adaboost來說，其子模型之間是強相關的，因此子模型之和並不能顯著降低variance。

為什麼偏差不變

因為Bagging中的子樣本集具有相似性，因此各模型有近似相等的bias，由於模型之間雖不完全獨立，但模型之間也沒有強依賴關係，$E[\frac{\sum {X_i}}{n}] = E[X_i]$
因此單個模型和整合之後的模型關於樣本的預期值差別不大，bias也近似。而對於Boosting，其訓練好一個弱分類器之後計算錯誤作為下一個分類器的輸入，這個過程本身就是在不斷減小損失函式，來使得模型偏差不斷降低。

吳恩達機器學習系列14：偏差與方差
2019-03-31
吳恩達機器學習
AI學習筆記——Bias and Variance tradeoff (方差偏差的平衡)
2018-06-05
AI筆記
機器學習中偏差bias和方差variance區別
2021-04-29
機器學習
機器學習《Machine Learning》筆記--偏差（Bias）和方差（Variance）
2018-06-05
機器學習Mac筆記
偏差-方差間權衡
2019-01-21
方差與偏差的解釋和解決辦法
2021-01-04
高/低方差、高/低偏差
2020-12-24
【機器學習】第二節-模型評估與選擇-效能度量、方差與偏差、比較檢驗
2024-05-17
機器學習模型
演算法模型定量分析之偏差和方差
2020-12-09
演算法模型
【Python機器學習實戰】決策樹與整合學習（三）——整合學習（1）
2021-08-30
Python機器學習
（轉）機器學習：偏差處理（2）
2018-05-29
機器學習
機器學習之分類：預測偏差
2020-06-28
機器學習
【Python機器學習實戰】決策樹與整合學習（四）——整合學習（2）GBDT
2021-09-03
Python機器學習
資料變異性的度量 - 極差、IQR、方差和標準偏差
2022-11-23
【機器學習】整合學習——Bagging與隨機森林
2021-09-09
機器學習隨機森林
整合學習（一）：簡述整合學習
2022-03-20
（大資料分析學習）14、廣義方差
2018-09-07
大資料
【Python機器學習實戰】決策樹與整合學習（六）——整合學習（4）XGBoost原理篇
2021-09-11
Python機器學習
【學習筆記】Spring與Junit的整合
2020-10-11
筆記Spring
整合學習
2024-05-13
方差與標準差
2024-03-28
機器學習-整合學習
2019-05-12
機器學習
機器學習-整合學習LightGBM
2023-02-21
機器學習
jenkins+gitlab+nexus持續整合與部署學習
2018-08-01
JenkinsGitlab
一文讀懂機器學習中的模型偏差
2018-10-16
機器學習模型
【springboot】學習4:整合JDBC、整合druid、整合mybatis、整合 SpringSecurity
2020-09-24
Spring BootJDBCUIMyBatisGse
第二週【任務2】貝葉斯估計，估計、偏差和方差，邏輯迴歸
2020-12-03
邏輯迴歸
幾種機器學習演算法的偏差以及防範
2018-12-20
機器學習演算法
機器學習整合學習—Apple的學習筆記
2018-11-01
機器學習APP筆記
機器學習基礎——整合學習1
2021-03-16
機器學習
方差分析（高等工程數學）
2020-12-30
SpringBoot學習之整合Swagger
2020-08-08
Spring BootSwagger
SpringBoot學習之整合Mybatis
2020-07-31
Spring BootMyBatis
SpringBoot學習之整合AOP
2020-10-11
Spring Boot
Rabbit學習---SpringBoot整合RabbitMQ
2021-01-03
Spring BootMQ
Nacos整合學習入門
2021-01-20
SpringBoot整合Activiti學習(一)
2020-11-29
Spring Boot
JAVA學習Spring整合Mybatis
2020-11-26
JavaSpringMyBatis

整合學習-偏差與方差

偏差與方差

偏差(Bias)

方差(variance)

偏差-方差窘境

相關文章