overfitting(過度擬合)的概念
最近幾天在看模式識別方面的資料,多次遇到“overfitting”這個概念,最終覺得以下解釋比較容易接受,就拿出來分享下。
overfittingt是這樣一種現象:一個假設在訓練資料上能夠獲得比其他假設更好的擬合,但是在訓練資料外的資料集上卻不能很好的擬合資料。此時我們就叫這個假設出現了overfitting的現象。出現這種現象的主要原因是訓練資料中存在噪音或者訓練資料太少。而解決overfit的方法主要有兩種:提前停止樹的增長或者對已經生成的樹按照一定的規則進行後剪枝。
百度中關於overfitting的標準定義:給定一個假設空間H,一個假設h屬於H,如果存在其他的假設h’屬於H,使得在訓練樣例上h的錯誤率比h’小,但在整個例項分佈上h’比h的錯誤率小,那麼就說假設h過度擬合訓練資料。
..........................
以下概念由本人摘自《資料探勘-概念與技術》
P186 過分擬合 即在機器學習期間,它可能併入了訓練資料中的某些特殊的異常點,這些異常不在一般資料集中出現。
P212 由於規則可能過分擬合這些資料,因此這種評論是樂觀的。也就是說,規則可能在訓練資料上行能很好,但是在以後的資料上九不那麼好。
............................
補充c4.5演算法中的介紹 這個通俗易懂
決策樹為什麼要剪枝?原因就是避免決策樹“過擬合”樣本。前面的演算法生成的決策樹非常的詳細而龐大,每個屬性都被詳細地加以考慮,決策樹的樹葉節點所覆蓋的訓練樣本都是“純”的。因此用這個決策樹來對訓練樣本進行分類的話,你會發現對於訓練樣本而言,這個樹表現堪稱完美,它可以100%完美正確得對訓練樣本集中的樣本進行分類(因為決策樹本身就是100%完美擬合訓練樣本的產物)。但是,這會帶來一個問題,如果訓練樣本中包含了一些錯誤,按照前面的演算法,這些錯誤也會100%一點不留得被決策樹學習了,這就是“過擬合”。C4.5的締造者昆蘭教授很早就發現了這個問題,他作過一個試驗,在某一個資料集中,過擬合的決策樹的錯誤率比一個經過簡化了的決策樹的錯誤率要高。那麼現在的問題就來了,如何在原生的過擬合決策樹的基礎上,通過剪枝生成一個簡化了的決策樹?
相關文章
- 機器學習–過度擬合 欠擬合機器學習
- 如何解決過度擬合
- 機器學習中的過擬合機器學習
- 過擬合與欠擬合-股票投資中的機器學習機器學習
- 機器學習之過擬合的風險機器學習
- 欠擬合與過擬合技術總結
- 深度學習中的欠擬合和過擬合簡介深度學習
- 「機器學習速成」正則化:降低模型的複雜度以減少過擬合機器學習模型複雜度
- 神經網路最佳化篇:為什麼正則化有利於預防過擬合呢?(Why regularization reduces overfitting?)神經網路
- 過擬合和欠擬合以及相對應的解決辦法
- 什麼是人工智慧領域的過擬合和欠擬合人工智慧
- Tensorflow-交叉熵&過擬合熵
- 機器學習中用來防止過擬合的方法有哪些?機器學習
- 今日面試題分享:如何理解模型的過擬合與欠擬合,以及如何解決?面試題模型
- 梯度下降、過擬合和歸一化梯度
- 虛擬機器的概念虛擬機
- 原理解析-過擬合與正則化
- InstaMaterial 概念設計(2):評論介面的過度動畫動畫
- 深度學習中“過擬合”的產生原因和解決方法深度學習
- YOLOv3訓練過程中出現過擬合現象的解決方法YOLO
- 演算法金 | 詳解過擬合和欠擬合!性感嫵媚 VS 大殺四方演算法
- 如何理解過擬合、正則化和交叉驗證
- 【概念】行連結和行遷移的概念、模擬及甄別
- 從模型複雜度角度來理解過擬合現象模型複雜度
- 人工智慧同樣也會讀死書----“過擬合”人工智慧
- 過擬合詳解:監督學習中不準確的「常識」
- Pytorch_第八篇_深度學習 (DeepLearning) 基礎 [4]---欠擬合、過擬合與正則化PyTorch深度學習
- 【深度學習篇】--神經網路中的調優二,防止過擬合深度學習神經網路
- Java 方法過載概念Java
- 『現學現忘』Docker相關概念 — 4、虛擬化概念Docker
- (知識錦囊)解析度概念的形象理解
- 讀軟體設計的要素03概念的組合
- 簡單描述桌面虛擬化儲存的概念
- C#方法過載概念C#
- 進度控制的概念和一般原則(轉)
- Python擬合曲線Python
- JS 函式式概念: 管道 和 組合JS函式
- 坑:重構過程中的過度設計