統計學習方法
1.3 統計學習方法的三要素
1.3.1 模型
好,為什麼要從1.3開始呢,因為看前面的課,我還沒有用到這個軟體。
方法=模型+策略+演算法
模型有好多個,試試
策略:按照什麼樣的準則去選取模型
比如說看預測值和真實值有多大,或者損失函式最小等
演算法 即怎樣去實現去尋找這個模型
決策模型
比如房價預測,我輸入x,他就會給出一個房價的預測值
條件機率模型
比如我給一張圖片,他就會給出屬於貓的機率為多少,屬於狗的機率為多少
最後呢,我用argmax函式就可以得出屬於哪一類了
1.3.2策略
損失函式和風險函式
首先引入損失函式與風險函式的概念。損失函式度量模型一次預測的好壞,風險函式度量平均意義下模型預測的好壞。
損失函式,有誤差平方和,等等
平均損失函式
好的,上面這個不用,因為我們知道分佈,還要機器學習幹什麼。
我們用這個 經驗損失
當樣本足夠大時,這倆就差不多了。第二個就是 損失函式 加起來求平均。L 就是損失函式
在應用中,樣本是有限的,所以我們要對平均誤差進行矯正。例如正則化什麼的,我現在還不會。
經驗風險最小化和結構風險最小化
經驗風險最小化
當樣本數量少,或者易出現過擬合
我們採用結構風險最小化,加一項正則化項
對於機率分佈的損失函式有
對於這個可以再去別的地方學學
1.3.3演算法
演算法就是學習模型的具體計算方法。透過演算法可以找到最合適的模型
1.4 模型評估與選擇
1.4.1 訓練與測試誤差
訓練誤差
測試誤差
可以理解為考試,在平常的小測試當中,一直做題,做了很多編後,得分很高,但是到了期末考試就,考的很差了,這就是為什麼要用到測試誤差。
1.4.2過擬合
過擬合:是指模型過於複雜,對訓練集訓練的太好,反而應用到測試集,效果不怎麼理想