知識總結:模型評估與選擇
檢驗誤差與過擬合
1、錯誤率:分類錯誤的樣本數a佔總樣本數m的比例 E=a/m
2、精度:1-E=1-(a/m) 誤差:學習器預測輸出與樣本的真實輸出之間的差異叫“誤差”。
學習出來的學習器在訓練集上的誤差叫‘“訓練誤差”。
在新樣本上的誤差叫“泛化誤差”。
過擬合:學習能力過於強大,學習到不是一般特徵的特徵。
欠擬合:通常由於學習能力過於弱導致。
模型的選擇
1、理想方案:
對候選模型的泛化誤差進行評估,選擇泛化誤差最小的模型。
通常泛化誤差無法直接獲得,而訓練誤差又存在過擬合現象。
2、評估方法 需要用測試集來測試學習器在新的樣本上的預測能力,通過“測試誤差” 來近似“泛化誤差”
3、交叉驗證法
先將資料集D劃分為k個大小相似的互斥子集,即D=D1∪D2....
每個子集儘可能保持資料分佈的一致性。
每次用k-1個子集的並集作為訓練集,餘下的那個子集作為測試集;這樣
就獲得K組訓練/測試集,從而可以進行k次訓練和測試,最終返回的就是
k個測試結果的均值。顯然,交叉驗證法評估結果的穩定性和保真性在很大程度上
取決於k的取值,通常交叉驗證法又叫“k折交叉驗證”。k最常用的取值是10。
4、調參與最終模型 基於驗證集上的效能來進行模型選擇和調參。
5、效能度量 即模型泛化能力的衡量
錯誤率
精度
查全率、查準率、F1 對於二分問題
根據真實樣本和分類器的預測可以分為: 真正例TP、假正例FP、真反例TN、假反例FN
查準率P=TP/TP+FP
查全率p=TP/TP+FN
本文來源於牛客網
作者:圖靈95
相關文章
- 【模型評估與選擇】sklearn.model_selection.KFold模型
- JQuery知識總結之選擇器jQuery
- 機器學習-學習筆記(二) --> 模型評估與選擇機器學習筆記模型
- 【模型評估與選擇】交叉驗證Cross-validation: evaluating estimator performance模型ROSORM
- 如何選擇評估 JS 庫JS
- 機器學習演算法筆記之7:模型評估與選擇機器學習演算法筆記模型
- 【機器學習】第二節-模型評估與選擇-效能度量、方差與偏差、比較檢驗機器學習模型
- 模型評估與改進:交叉驗證模型
- 【知識分享】漏洞評估掃描的步驟
- RAG知識庫的可靠性評估(二)
- 知識方法總結
- 圖知識總結
- Docker知識總結Docker
- JQuery知識總結jQuery
- 常量知識總結
- golang知識總結Golang
- servelt知識總結
- servlet知識總結Servlet
- Cookie知識總結(-)Cookie
- Redis知識總結Redis
- MySQL知識總結MySql
- 知識點總結
- Java與Mysql鎖相關知識總結JavaMySql
- Oracle 選擇題知識點整理Oracle
- 【推薦系統】評估指標總結指標
- 正則化與模型選擇模型
- Kafka知識點總結Kafka
- HBase知識點總結
- MongoDB知識點總結MongoDB
- HDFS知識點總結
- jQuery 知識點總結jQuery
- Tomcat 知識點總結Tomcat
- MySQL知識點總結MySql
- 概率論知識總結
- Java 知識點總結Java
- Vue知識總結(2)Vue
- django知識點總結Django
- iOS 知識點總結iOS
- 特徵選擇技術總結特徵