overfitting(過度擬合)的概念

鴨脖發表於2015-08-23

最近幾天在看模式識別方面的資料,多次遇到“overfitting”這個概念,最終覺得以下解釋比較容易接受,就拿出來分享下。


overfittingt是這樣一種現象:一個假設在訓練資料上能夠獲得比其他假設更好的擬合,但是在訓練資料外的資料集上卻不能很好的擬合資料。此時我們就叫這個假設出現了overfitting的現象。出現這種現象的主要原因是訓練資料中存在噪音或者訓練資料太少。而解決overfit的方法主要有兩種:提前停止樹的增長或者對已經生成的樹按照一定的規則進行後剪枝。


百度中關於overfitting的標準定義:給定一個假設空間H,一個假設h屬於H,如果存在其他的假設h’屬於H,使得在訓練樣例上h的錯誤率比h’小,但在整個例項分佈上h’比h的錯誤率小,那麼就說假設h過度擬合訓練資料。


..........................

以下概念由本人摘自《資料探勘-概念與技術》

P186 過分擬合 即在機器學習期間,它可能併入了訓練資料中的某些特殊的異常點,這些異常不在一般資料集中出現。

P212 由於規則可能過分擬合這些資料,因此這種評論是樂觀的。也就是說,規則可能在訓練資料上行能很好,但是在以後的資料上九不那麼好。


............................

補充c4.5演算法中的介紹 這個通俗易懂

決策樹為什麼要剪枝?原因就是避免決策樹“過擬合”樣本。前面的演算法生成的決策樹非常的詳細而龐大,每個屬性都被詳細地加以考慮,決策樹的樹葉節點所覆蓋的訓練樣本都是“純”的。因此用這個決策樹來對訓練樣本進行分類的話,你會發現對於訓練樣本而言,這個樹表現堪稱完美,它可以100%完美正確得對訓練樣本集中的樣本進行分類(因為決策樹本身就是100%完美擬合訓練樣本的產物)。但是,這會帶來一個問題,如果訓練樣本中包含了一些錯誤,按照前面的演算法,這些錯誤也會100%一點不留得被決策樹學習了,這就是“過擬合”。C4.5的締造者昆蘭教授很早就發現了這個問題,他作過一個試驗,在某一個資料集中,過擬合的決策樹的錯誤率比一個經過簡化了的決策樹的錯誤率要高。那麼現在的問題就來了,如何在原生的過擬合決策樹的基礎上,通過剪枝生成一個簡化了的決策樹?

相關文章