監督學習簡介
給定一組資料點 {x^{(1)},…,x^{(m)}} 和與其對應的輸出 {y^{(1)},…,y^{(m)}},我們想要建立一個分類器,學習如何從 x 預測 y。
預測型別
不同型別的預測模型總結如下表:
型號型別
不同型號總結如下表:
符號和一般概念
假設
假設我們選擇的模型是h_\theta。對於給定的輸入資料x^{(i)},模型預測輸出是h_\theta(x^{(i)})。
損失函式
損失函式是一個L:(z,y)\in \R \times Y \rightarrow L(z,y)\in \R的函式,其將真實資料值 y 和其預測值 z 作為輸入,輸出他們的不同程度。常見的損失函式總結如下表:
成本函式
成本函式J通常用於評估模型的效能,使用損失函式L定義如下:
J(\theta)=\sum\limits_{i=1}^mL(h_\theta(x^{(i)}),y^{(i)})
梯度下降
記學習率為\alpha\in \R,梯度下降的更新規則使用學習率和成本函式J,表示如下:
備註:隨機梯度下降(SGD)是根據每個訓練樣本進行引數更新,而批量梯度下降是在一批訓練樣本 上進行更新。
似然
給定引數\theta的模型L(\theta)的似然性通過最大化似然性來找到最佳引數\theta。在實踐中,我們使用更容易優化的對數似然l(\theta)=\log(L(\theta))。我們有:
\theta^{opt}=\arg \max L(\theta)
牛頓演算法
牛頓演算法是一種數值方法,目的是找到一個\theta使得l^\prime(\theta)=0,其更新規則如下:
\theta\leftarrow \theta - \frac{l^\prime(\theta)}{l^{\prime\prime}(\theta)}
備註:多維泛化,也稱為Newton-Raphson 方法,具有以下更新規則:
\theta\leftarrow \theta - (\nabla_\theta^2l(\theta))^{-1}\nabla_\theta l(\theta)
本作品採用《CC 協議》,轉載必須註明作者和本文連結