機器學習4-模型的誤差來源以及減少誤差的方法
誤差來源的兩個方面:
bias(偏差):度量了某種學習演算法的平均估計結果所逼近的學習目標的程度。
variance(方差):度量了在面對同樣規模的不同訓練集時分散的程度。
高的bias表示離目標值遠,低bias表示離靶心近;高的variance表示多次學習的結果越分散,低的variance表示多次學習的結果越集中。
區別
variance反映的是模型每一次輸出結果與模型輸出期望之間的誤差,即模型的穩定性。
bias反映的是模型在樣本上的輸出與真實值之間的誤差,即模型本身的精準度。
先看沒有bias存在的情況
圖中的N個點他們的平均值不等μ,但是當取值足夠多,它的期望與μ相等。比喻就是,沒有bias就是說瞄準的是靶心沒有偏差,但是射擊的時候由於一些因素,實際射擊的位置散落在了μ的周圍。
不同訓練集分散的程度取決於variance:
怎麼估測variance:
當N足夠大時,s方的期望才會等於variance。
例子比喻
不同的f*是不同訓練集的原因
簡單的模型往往對應著比較大的bias,複雜的模型往往對應著較小的bias.
bias和variance
可以看出隨著模型逐漸複雜,bias逐漸變小,variance逐漸變大。bias大,variance小的情況意味著欠擬合;bias小,variance大的情況意味著過擬合。
對於較大的bias怎麼進行處理:
如果模型無法fit訓練集代表bias比較大,即欠擬合。
如果模型在訓練集表現好,在測試集表現較差,則屬於過擬合。
對於bias較大處理方法:
1、加入更多的feature
2、設計更加複雜的模型
對於較大的variance怎麼進行處理:
1、增加資料(非常有效,但是不太實際)
2、正則化(regularization)(需要調節bias和variance之間的平衡關係)
怎麼進行模型選擇
用擁有的測試集上的準確率最好的模型,應用於實際場合中,效果不一定好
如何防止上述情況:
cross validation(交叉驗證):
N折交叉驗證
對模型進行交叉驗證,選出平均錯誤率最低的模型,然後利用此模型對所有的樣本重訓練。
相關文章
- TRIZ在減少人為誤差原理上的應用
- 機器學習和統計模型的差異機器學習模型
- 解決double型別相減有誤差的問題型別
- 【機器學習】數值分析01——緒論及誤差分析機器學習
- 移動端1px誤差的原因以及解決方案
- ERP差異來源和差異處理
- 專案管理 :不讓誤差再誤事(轉)專案管理
- 神經網路模型與誤差逆傳播演算法神經網路模型演算法
- 計算誤差函式的積分--erf(x)函式
- EXP客戶端版本差異造成的錯誤客戶端
- 減少失誤提高策略性,ACT遊戲中的戰鬥資源控制遊戲
- Web設計中對視差設計的誤區Web
- 數值分析1 - 誤差概念介紹
- 機器學習中的Bias(偏差),Error(誤差),和Variance(方差)有什麼區別和聯絡?機器學習Error
- js處理浮點數計算誤差JS
- 奇怪的Js時間計算方法,跨多個月後出現1天的誤差JS
- IT職場:PFMEA是如何減少製造過程中的錯誤的?
- Excel 2010圖表新增誤差線Excel
- 「機器學習速成」正則化:降低模型的複雜度以減少過擬合機器學習模型複雜度
- 減少SQL Server死鎖的方法SQLServer
- 關於核心體驗和功能堆積不協調的完美誤差
- 機器學習-演算法背後的理論與優化(part3)--經驗風險與泛化誤差概述機器學習演算法優化
- excel日期加減計算方法 excel計算日期時間差Excel
- 這坑貨 (迭代+迭代終止條件(由誤差控制))
- 糟糕的、差勁的,以及不該來當程式設計師的程式設計師程式設計師
- Python浮點數(小數)運算誤差的原因和解決辦法Python
- RealFormer: 殘差式 Attention 層的Transformer 模型ORM模型
- Python求兩個list的交集、並集、差(補)集、對稱差集的方法Python
- 混凝土攪拌站計量誤差原因分析及技改措施(三)
- javascript如何解決浮點數相乘出現誤差問題JavaScript
- 史丹佛大學:Apple Watch心率監測誤差僅為2.5%APP
- SICP 習題 (2.13)解題總結:區間計算誤差
- java 中日期比較以及日期的增加和減少Java
- led伏安特性實驗誤差分析_測繪小燈泡的伏安特性曲線?
- 差評的“價值”:圍繞使用者差評的響應、解決以及建設性溝通
- 前端頁面優化,減少 reflow 的方法前端優化
- IIS減少工作執行緒阻塞的方法執行緒
- 減少SQL日誌的三種方法(轉)SQL