統計學習方法筆記

小孩那桌發表於2024-11-02

統計學習方法

1.3 統計學習方法的三要素

1.3.1 模型

好,為什麼要從1.3開始呢,因為看前面的課,我還沒有用到這個軟體。

方法=模型+策略+演算法

模型有好多個,試試

策略:按照什麼樣的準則去選取模型

比如說看預測值和真實值有多大,或者損失函式最小等

演算法 即怎樣去實現去尋找這個模型

決策模型

比如房價預測,我輸入x,他就會給出一個房價的預測值

條件機率模型

比如我給一張圖片,他就會給出屬於貓的機率為多少,屬於狗的機率為多少

最後呢,我用argmax函式就可以得出屬於哪一類了

1.3.2策略

損失函式和風險函式

首先引入損失函式與風險函式的概念。損失函式度量模型一次預測的好壞,風險函式度量平均意義下模型預測的好壞。

損失函式,有誤差平方和,等等

平均損失函式

8ddd256d2928581fadd21c25e007095

好的,上面這個不用,因為我們知道分佈,還要機器學習幹什麼。

我們用這個 經驗損失

ef360c3a5c7d2bab8f3f8322237e432

當樣本足夠大時,這倆就差不多了。第二個就是 損失函式 加起來求平均。L 就是損失函式

在應用中,樣本是有限的,所以我們要對平均誤差進行矯正。例如正則化什麼的,我現在還不會。

經驗風險最小化和結構風險最小化

經驗風險最小化

ce1da577769c86c5407275fc272f093

當樣本數量少,或者易出現過擬合

我們採用結構風險最小化,加一項正則化項

f79b3ba6f59751ce4584fcbba3a35bd

image-20241102165236039

對於機率分佈的損失函式有

image-20241102165339349

dfcf750b4634a3073a5bd5df084a2b1

對於這個可以再去別的地方學學

1.3.3演算法

演算法就是學習模型的具體計算方法。透過演算法可以找到最合適的模型

1.4 模型評估與選擇

1.4.1 訓練與測試誤差

訓練誤差

image-20241102172718002

測試誤差

image-20241102172702878

可以理解為考試,在平常的小測試當中,一直做題,做了很多編後,得分很高,但是到了期末考試就,考的很差了,這就是為什麼要用到測試誤差。

1.4.2過擬合

過擬合:是指模型過於複雜,對訓練集訓練的太好,反而應用到測試集,效果不怎麼理想

image-20241102173830491

相關文章