機器學習4-模型的誤差來源以及減少誤差的方法
誤差來源的兩個方面:
bias(偏差):度量了某種學習演算法的平均估計結果所逼近的學習目標的程度。
variance(方差):度量了在面對同樣規模的不同訓練集時分散的程度。
高的bias表示離目標值遠,低bias表示離靶心近;高的variance表示多次學習的結果越分散,低的variance表示多次學習的結果越集中。
區別
variance反映的是模型每一次輸出結果與模型輸出期望之間的誤差,即模型的穩定性。
bias反映的是模型在樣本上的輸出與真實值之間的誤差,即模型本身的精準度。
先看沒有bias存在的情況
圖中的N個點他們的平均值不等μ,但是當取值足夠多,它的期望與μ相等。比喻就是,沒有bias就是說瞄準的是靶心沒有偏差,但是射擊的時候由於一些因素,實際射擊的位置散落在了μ的周圍。
不同訓練集分散的程度取決於variance:
怎麼估測variance:
當N足夠大時,s方的期望才會等於variance。
例子比喻
不同的f*是不同訓練集的原因
簡單的模型往往對應著比較大的bias,複雜的模型往往對應著較小的bias.
bias和variance
可以看出隨著模型逐漸複雜,bias逐漸變小,variance逐漸變大。bias大,variance小的情況意味著欠擬合;bias小,variance大的情況意味著過擬合。
對於較大的bias怎麼進行處理:
如果模型無法fit訓練集代表bias比較大,即欠擬合。
如果模型在訓練集表現好,在測試集表現較差,則屬於過擬合。
對於bias較大處理方法:
1、加入更多的feature
2、設計更加複雜的模型
對於較大的variance怎麼進行處理:
1、增加資料(非常有效,但是不太實際)
2、正則化(regularization)(需要調節bias和variance之間的平衡關係)
怎麼進行模型選擇
用擁有的測試集上的準確率最好的模型,應用於實際場合中,效果不一定好
如何防止上述情況:
cross validation(交叉驗證):
N折交叉驗證
對模型進行交叉驗證,選出平均錯誤率最低的模型,然後利用此模型對所有的樣本重訓練。
相關文章
- TRIZ在減少人為誤差原理上的應用
- 【機器學習】數值分析01——緒論及誤差分析機器學習
- 機器學習策略篇:詳解進行誤差分析(Carrying out error analysis)機器學習Error
- SAR運動誤差的補償
- 移動端1px誤差的原因以及解決方案
- Origin2024如何繪製誤差棒圖?直觀看出每個資料點的誤差
- 預測的必要性和誤差的必然
- 繪製帶誤差分析的柱狀圖
- dmesg 時間誤差現象
- IDC售後服務怎樣減少差評?
- 神經網路模型與誤差逆傳播演算法神經網路模型演算法
- 「機器學習速成」正則化:降低模型的複雜度以減少過擬合機器學習模型複雜度
- 距離容差來源
- 數值分析1 - 誤差概念介紹
- 機器學習-演算法背後的理論與優化(part3)--經驗風險與泛化誤差概述機器學習演算法優化
- K-Means聚類分析以及誤差平方和SSE(Python實現)聚類Python
- 減少失誤提高策略性,ACT遊戲中的戰鬥資源控制遊戲
- js處理浮點數計算誤差JS
- DeepMind依靠CBN統計方法來構建公平的機器學習模型機器學習模型
- 通俗易懂講解ML中的均方誤差 (MSE) - haltakov
- 如何正確地做誤差分析,NLP研究人員們需要學習一下
- webpack 4.0 學習日誌(一)——配置方法以及錯誤解決Web
- 自適應辛普森積分與誤差證明
- 差分學習筆記筆記
- IT職場:PFMEA是如何減少製造過程中的錯誤的?
- 11 個 AI 和機器學習模型的開源框架AI機器學習模型框架
- VNPY 價差交易模組的使用學習
- STM32H723 ADC+DMA 誤差解決
- 關於核心體驗和功能堆積不協調的完美誤差
- Python浮點數(小數)運算誤差的原因和解決辦法Python
- 機器學習的教訓:5家公司分享的錯誤經驗機器學習
- 為什麼計算機對浮點型數字計算存在誤差計算機
- RealFormer: 殘差式 Attention 層的Transformer 模型ORM模型
- 機器學習模型機器學習模型
- 神經網路學習筆記(4)——期望與算術平均值的區別、方差與均方誤差的區別神經網路筆記
- 機器學習4-分類演算法2機器學習演算法
- 聊聊一個差點被放棄的專案以及近期的開源計劃
- 差分約束學習筆記筆記