過擬合和欠擬合以及相對應的解決辦法

dicksonjyl560101發表於2018-08-18

https://blog.csdn.net/weixin_42137700/article/details/81806419

 

 

 

欠擬合:是指模型的學習能力比較低,以至於,只學到了很少的一部分資訊,當進行預測的時候,會發生方差最低,和偏差較大的情況
過擬合:是指模型的學習能力比較強,以至於,直接把題給背下來了,如果考到原題,就會實現相應的預測100%,如果預測的不再訓練集中,那麼結果就是0.
過擬合是偏差較小,但是方差較大
上面的較小與較大是和不欠擬合也不過擬合的相比而言的,這也在某種程度上說明了,偏差 和方差是一個均衡的狀態,一個高一個低,高和低都不好
mse=var+bias


過擬合和欠擬合以及相對應的解決辦法

過擬合和欠擬合以及相對應的解決辦法


圖片來源於華東師範大學茆師松的書,出版社是高等教育


欠擬合的解決辦法
1)新增其他特徵項,有時候我們模型出現欠擬合的時候是因為特徵項不夠導致的,可以新增其他特徵項來很好地解決。例如,“組合”、“泛化”、“相關性”三類特徵是特徵新增的重要手段,無論在什麼場景,都可以照葫蘆畫瓢,總會得到意想不到的效果。除上面的特徵之外,“上下文特徵”、“平臺特徵”等等,都可以作為特徵新增的首選項。
2)新增多項式特徵,這個在機器學習演算法裡面用的很普遍,例如將線性模型透過新增二次項或者三次項使模型泛化能力更強。例如上面的圖片的例子。
3)減少正則化引數,正則化的目的是用來防止過擬合的,但是現在模型出現了欠擬合,則需要減少正則化引數。
4)增加模型複雜度。如果模型太簡單,不能夠應對複雜的任務。可以使用更復雜的模型,減小正則化係數。具體來說可以使用核函式,整合學習方法,深度學習等。
整合學習方法boosting(如GBDT,xgboost,adaboost)能有效解決high bias,
過擬合解決辦法:
解決方法:
1) 合適的模型(simpler model structure)
2) 正則化(regularization) L2正則化
3) 資料增強(data augmention)
4) 隨機失活(Dropout) 或者weight decy
5) 批規範化(batch normalization)
6) Bagging和其他整合模型 例如: 隨機森林模型可以
7)重新清洗資料,導致過擬合的一個原因也有可能是資料不純導致的,如果出現了過擬合就需要我們重新清洗資料。
8)增大資料的訓練量,還有一個原因就是我們用於訓練的資料量太小導致的,訓練資料佔總資料的比例過小。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2200352/,如需轉載,請註明出處,否則將追究法律責任。

相關文章