機器學習4-模型的誤差來源以及減少誤差的方法

weixin_45540546發表於2020-11-01

誤差來源的兩個方面:

bias(偏差):度量了某種學習演算法的平均估計結果所逼近的學習目標的程度。
variance(方差):度量了在面對同樣規模的不同訓練集時分散的程度。
高的bias表示離目標值遠,低bias表示離靶心近;高的variance表示多次學習的結果越分散,低的variance表示多次學習的結果越集中。
區別
variance反映的是模型每一次輸出結果與模型輸出期望之間的誤差,即模型的穩定性。
bias反映的是模型在樣本上的輸出與真實值之間的誤差,即模型本身的精準度。

先看沒有bias存在的情況

在這裡插入圖片描述

圖中的N個點他們的平均值不等μ,但是當取值足夠多,它的期望與μ相等。比喻就是,沒有bias就是說瞄準的是靶心沒有偏差,但是射擊的時候由於一些因素,實際射擊的位置散落在了μ的周圍。

不同訓練集分散的程度取決於variance:

在這裡插入圖片描述

怎麼估測variance:


當N足夠大時,s方的期望才會等於variance。

例子比喻

不同的f*是不同訓練集的原因
在這裡插入圖片描述
在這裡插入圖片描述
簡單的模型往往對應著比較大的bias,複雜的模型往往對應著較小的bias.

bias和variance在這裡插入圖片描述

可以看出隨著模型逐漸複雜,bias逐漸變小,variance逐漸變大。bias大,variance小的情況意味著欠擬合;bias小,variance大的情況意味著過擬合。

對於較大的bias怎麼進行處理:

如果模型無法fit訓練集代表bias比較大,即欠擬合。
如果模型在訓練集表現好,在測試集表現較差,則屬於過擬合。
在這裡插入圖片描述
對於bias較大處理方法:
1、加入更多的feature
2、設計更加複雜的模型

對於較大的variance怎麼進行處理:

1、增加資料(非常有效,但是不太實際)
2、正則化(regularization)(需要調節bias和variance之間的平衡關係)
在這裡插入圖片描述

怎麼進行模型選擇

用擁有的測試集上的準確率最好的模型,應用於實際場合中,效果不一定好
在這裡插入圖片描述
如何防止上述情況:
cross validation(交叉驗證):在這裡插入圖片描述
N折交叉驗證
在這裡插入圖片描述
對模型進行交叉驗證,選出平均錯誤率最低的模型,然後利用此模型對所有的樣本重訓練。

相關文章