機器學習之過擬合的風險

Lois發表於2020-06-14

假設這些圖中的每個點代表一棵樹在森林中的位置.圖中的兩種顏色分別代表以下含義:
1.藍點代表生病的樹
2.橙點代表健康的樹
接下來, 我們看看圖 1

圖1.生病 ( 藍色 ) 和健康 ( 橙色 ) 的樹

您能設想出一個有效的模型來預測以後的生病或健康的樹嗎 ?
花點時間在腦海裡繪製一條弧線將藍點與橙點分開, 或者在腦海中圈住一些橙點或藍點.然後再看看圖 2 , 它顯示某種機器學習模型如何將生病的樹與健康的樹區分開.請注意, 該模型產生的損失非常低.

損失很低, 但仍然是糟糕的模型 ?

圖 3 顯示我們向該模型中新增了新資料後發生的情況.結果表明, 該模型在處理新資料方面表現非常糟糕.請注意, 該模型對大部分新資料的分類都不正確.

圖 3. 該模型在預測新資料方面表現的非常糟糕.

圖 2 和圖 3 所示的模型過擬合了訓練資料的特性.
過擬合模型在訓練過程中產生的損失很低,但在預測新資料方面的表現卻非常糟糕.如果某個模型在擬合當前樣本方面表現良好, 那麼我們如何相信該模型會對新資料做出良好的預測呢 ? 正如您稍後將看到的, 過擬合是由於模型的複雜程度超出所需程度而造成的.機器學習的基本衝突是適當擬合我們的資料,但也要儘可能簡單的擬合資料.
機器學習的目標是對從真實概率分佈 ( 已隱藏 ) 中抽取的新資料做出良好的預測.遺憾的是, 模型無法檢視整體情況;模型只能從訓練資料集中取樣.如果某個模型在擬合當前樣本方面表現良好, 那麼您如何相信該模型也會對從未見過的樣本做出良好預測呢 ?
奧卡姆的威廉是 14 世紀一位崇尚簡單的修士和哲學家. 他認為他認為科學家應該優先採用更簡單 ( 而非更復雜 ) 的公式或理論. 奧卡姆剃刀定律在機器學習方面的運用如下:
機器學習模型越簡單,良好的實證結果就越有可能不僅僅基於樣本的特性.
現今, 我們已將奧卡姆剃刀定律正式應用於統計學習理論和計算學習理論領域. 這些領域已經形成了泛化邊界, 即統計化描述模型根據以下因素泛化到新資料的能力:
1.模型的複雜程度
2.模型在處理訓練資料方面的表現
雖然理論分析在理想化假設下可提供正式的保證, 但在實踐中卻很難應用.機器學習速成課程則側重於實證評估, 以評價模型泛化到新資料的能力.
機器學習模型旨在根據以前未見過的新資料做出良好預測.但是, 如果您要根據資料集構建模型, 如何獲得以前未見過的資料呢 ? 一種方法是將您的資料集分成兩個子集:
1.訓練集 - 用於訓練模型的子集
2.測試集 - 用於測試模型的子集
一般來說, 在測試集上表現是否良好是衡量能否在新資料上表現良好的有用指標, 前提是:
1.測試集足夠大
2.您不會反覆使用相同的測試集來作假.

機器學習細則

以下三項基本假設闡明瞭泛化:
1.我們從分佈中隨機抽取獨立同分布 ( i, i, d ) 的樣本.換而言之, 樣本之間不會互相影響.( 另一種解釋: i, i, d. 是表示變數隨機性的一種方式 ).
2.分佈是平穩的, 即分佈在資料集內不會發生變化.
3.我們從同一分佈的資料劃分中抽取樣本.
在實踐中, 我們有時會違背這些假設. 例如:
1.想象有一個選擇要展示的廣告的模型.如果該模型在某種程度上根據使用者以前看過的廣告選擇廣告, 則會違背 i, i, d 假設.
2.想象有一個包含一年零售資訊的資料集.使用者的購買行為會出現季節性變化, 這會違反平穩性.
如果違背了上述三項基本假設中的任何一項, 那麼我們就必須密切注意這些指標.

本作品採用《CC 協議》,轉載必須註明作者和本文連結

Hacking

相關文章