監督學習基礎概念

Galois發表於2020-02-14

監督學習簡介

給定一組資料點 \lbrace x^{(1)},…,x^{(m)}\rbrace 和與其對應的輸出 {y^{(1)},…,y^{(m)}},我們想要建立一個分類器,學習如何從 x 預測 y。

預測型別

不同型別的預測模型總結如下表:

FLrn1WnSCp.png!large

型號型別

不同型號總結如下表:

f4dexuiroy.png!large

符號和一般概念

假設

假設我們選擇的模型是h_\theta。對於給定的輸入資料x^{(i)},模型預測輸出是h_\theta(x^{(i)})

損失函式

損失函式是一個L:(z,y)\in \R \times Y \rightarrow L(z,y)\in \R的函式,其將真實資料值 y 和其預測值 z 作為輸入,輸出他們的不同程度。常見的損失函式總結如下表:

UCcyyjCaCn.png!large

成本函式

成本函式J通常用於評估模型的效能,使用損失函式L定義如下:

J(\theta)=\sum\limits_{i=1}^mL(h_\theta(x^{(i)}),y^{(i)})

梯度下降

記學習率為\alpha\in \R,梯度下降的更新規則使用學習率和成本函式J,表示如下:

FMdBlG5SFo.png!large

備註:隨機梯度下降(SGD)是根據每個訓練樣本進行引數更新,而批量梯度下降是在一批訓練樣本 上進行更新。

似然

給定引數\theta的模型L(\theta)的似然性通過最大化似然性來找到最佳引數\theta。在實踐中,我們使用更容易優化的對數似然l(\theta)=\log(L(\theta))。我們有:

\theta^{opt}=\arg \max L(\theta)

牛頓演算法

牛頓演算法是一種數值方法,目的是找到一個\theta使得l^\prime(\theta)=0,其更新規則如下:

\theta\leftarrow \theta - \frac{l^\prime(\theta)}{l^{\prime\prime}(\theta)}

備註:多維泛化,也稱為Newton-Raphson 方法,具有以下更新規則:

\theta\leftarrow \theta - (\nabla_\theta^2l(\theta))^{-1}\nabla_\theta l(\theta)

本作品採用《CC 協議》,轉載必須註明作者和本文連結

不要試圖用百米衝刺的方法完成馬拉松比賽。

相關文章