機器學習之過擬合的風險

Lois發表於2020-06-14

原文網址 : https://learnku.com/articles/45915?order_by=created_at&

假設這些圖中的每個點代表一棵樹在森林中的位置.圖中的兩種顏色分別代表以下含義:
1.藍點代表生病的樹
2.橙點代表健康的樹
接下來, 我們看看圖 1

圖1.生病 ( 藍色 ) 和健康 ( 橙色 ) 的樹

您能設想出一個有效的模型來預測以後的生病或健康的樹嗎 ?
花點時間在腦海裡繪製一條弧線將藍點與橙點分開, 或者在腦海中圈住一些橙點或藍點.然後再看看圖 2 , 它顯示某種機器學習模型如何將生病的樹與健康的樹區分開.請注意, 該模型產生的損失非常低.

損失很低, 但仍然是糟糕的模型 ?

圖 3 顯示我們向該模型中新增了新資料後發生的情況.結果表明, 該模型在處理新資料方面表現非常糟糕.請注意, 該模型對大部分新資料的分類都不正確.

圖 3. 該模型在預測新資料方面表現的非常糟糕.

圖 2 和圖 3 所示的模型過擬合了訓練資料的特性.
過擬合模型在訓練過程中產生的損失很低,但在預測新資料方面的表現卻非常糟糕.如果某個模型在擬合當前樣本方面表現良好, 那麼我們如何相信該模型會對新資料做出良好的預測呢 ? 正如您稍後將看到的, 過擬合是由於模型的複雜程度超出所需程度而造成的.機器學習的基本衝突是適當擬合我們的資料,但也要儘可能簡單的擬合資料.
機器學習的目標是對從真實概率分佈 ( 已隱藏 ) 中抽取的新資料做出良好的預測.遺憾的是, 模型無法檢視整體情況;模型只能從訓練資料集中取樣.如果某個模型在擬合當前樣本方面表現良好, 那麼您如何相信該模型也會對從未見過的樣本做出良好預測呢 ?
奧卡姆的威廉是 14 世紀一位崇尚簡單的修士和哲學家. 他認為他認為科學家應該優先採用更簡單 ( 而非更復雜 ) 的公式或理論. 奧卡姆剃刀定律在機器學習方面的運用如下:
機器學習模型越簡單,良好的實證結果就越有可能不僅僅基於樣本的特性.
現今, 我們已將奧卡姆剃刀定律正式應用於統計學習理論和計算學習理論領域. 這些領域已經形成了泛化邊界, 即統計化描述模型根據以下因素泛化到新資料的能力:
1.模型的複雜程度
2.模型在處理訓練資料方面的表現
雖然理論分析在理想化假設下可提供正式的保證, 但在實踐中卻很難應用.機器學習速成課程則側重於實證評估, 以評價模型泛化到新資料的能力.
機器學習模型旨在根據以前未見過的新資料做出良好預測.但是, 如果您要根據資料集構建模型, 如何獲得以前未見過的資料呢 ? 一種方法是將您的資料集分成兩個子集:
1.訓練集 - 用於訓練模型的子集
2.測試集 - 用於測試模型的子集
一般來說, 在測試集上表現是否良好是衡量能否在新資料上表現良好的有用指標, 前提是:
1.測試集足夠大
2.您不會反覆使用相同的測試集來作假.

機器學習細則

以下三項基本假設闡明瞭泛化:
1.我們從分佈中隨機抽取獨立同分布 ( i, i, d ) 的樣本.換而言之, 樣本之間不會互相影響.( 另一種解釋: i, i, d. 是表示變數隨機性的一種方式 ).
2.分佈是平穩的, 即分佈在資料集內不會發生變化.
3.我們從同一分佈的資料劃分中抽取樣本.
在實踐中, 我們有時會違背這些假設. 例如:
1.想象有一個選擇要展示的廣告的模型.如果該模型在某種程度上根據使用者以前看過的廣告選擇廣告, 則會違背 i, i, d 假設.
2.想象有一個包含一年零售資訊的資料集.使用者的購買行為會出現季節性變化, 這會違反平穩性.
如果違背了上述三項基本假設中的任何一項, 那麼我們就必須密切注意這些指標.

本作品採用《CC 協議》，轉載必須註明作者和本文連結

Hacking

機器學習中的過擬合
2019-02-13
機器學習
機器學習–過度擬合欠擬合
2018-12-08
機器學習
過擬合與欠擬合-股票投資中的機器學習
2019-01-30
機器學習
機器學習中用來防止過擬合的方法有哪些？
2018-07-12
機器學習
深度學習中的欠擬合和過擬合簡介
2018-10-04
深度學習
幽默：Lemonade機器學習演算法可對保險風險預測
2021-05-26
機器學習演算法
「機器學習速成」正則化：降低模型的複雜度以減少過擬合
2019-06-21
機器學習模型複雜度
機器學習之特徵組合:組合獨熱向量
2020-06-17
機器學習特徵
【機器學習】--Python機器學習庫之Numpy
2018-04-06
機器學習Python
機器學習之學習速率
2020-06-12
機器學習
採用NLP機器學習來進行自動化合規風險治理
2019-03-08
機器學習
學習筆記-虛擬機器
2020-11-01
筆記虛擬機
機器學習之學習曲線
2019-09-18
機器學習
機器學習之pca
2024-06-17
機器學習PCA
機器學習之皮毛
2021-04-14
機器學習
深度學習中“過擬合”的產生原因和解決方法
2020-09-30
深度學習
不要錯過第一款基於機器學習的冒險遊戲
2019-12-17
機器學習遊戲
JAVA虛擬機器學習筆記
2018-04-01
Java虛擬機機器學習筆記
通過虛擬機器學習作業系統引導檔案的配置
2018-10-16
虛擬機機器學習作業系統
機器學習之特徵工程
2020-06-14
機器學習特徵工程
機器學習之梯度下降
2020-02-08
機器學習梯度
機器學習之迭代方法
2020-06-12
機器學習
機器學習之泛化
2020-06-13
機器學習
機器學習之支援向量機的超平面
2020-07-04
機器學習
Linux運維適合哪些人學習？linux虛擬機器下載
2020-08-04
Linux運維虛擬機
過擬合與欠擬合
2020-10-30
降低過擬合和欠擬合的方法
2019-03-04
幣圈熊市時如何規避風險（現貨合約量化機器人）
2023-04-25
機器人
深入學習Java虛擬機器——虛擬機器位元組碼執行引擎
2018-08-31
Java虛擬機
專案風險管理：透過五步降低風險
2023-10-12
機器學習之良好特徵的特點
2020-06-16
機器學習特徵
機器學習之常見的效能度量
2020-12-23
機器學習
JVM學習-虛擬機器類載入機制
2018-12-10
JVM虛擬機
過擬合詳解：監督學習中不準確的「常識」
2019-01-25
豆瓣 9.5 分，日漫風格的機器學習數學書~
2021-01-14
機器學習
機器學習之牛頓法
2019-03-03
機器學習
機器學習之超引數
2018-12-12
機器學習
機器學習之模型選擇
2020-02-14
機器學習模型

機器學習之過擬合的風險

圖1.生病 ( 藍色 ) 和健康 ( 橙色 ) 的樹

損失很低, 但仍然是糟糕的模型 ?

圖 3. 該模型在預測新資料方面表現的非常糟糕.

機器學習細則

相關文章