機器學習：監督學習

Zhennyu發表於2022-12-04

原文網址 : https://www.cnblogs.com/wuzhimao/p/16950210.html

機器學習

監督學習

參考吳恩達2022MachineLearning影片教程

影片教程：(強推|雙字)2022吳恩達機器學習Deeplearning.ai課程

機器學習分類

監督學習和無監督學習

監督學習：迴歸、分類
無監督學習：聚集、異常檢測、降維

迴歸問題

利用大量的樣本，透過有監督的學習，學習到由x到y的對映f，利用該對映關係對未知的資料進行預估，其中y為連續值

1.線性迴歸

常用符號說明：
擬合函式：

利用一個線性函式去擬合資料：

\[f_{w, b}(x) = wx +b ,其中w,b為引數 \]
損失函式（loss function）

利用最小二乘法（最小平方法）計算其損失函式為：

\[L(w,b) =\frac{1}{2} (\hat{y} - y)^2 = \frac{1}{2} (f_{w, b}(x) - y)^2 \]
代價函式（cost function）

代價函式是所有樣本誤差總和(所有損失函式總和)的平均值：

\[J(w,b) = \frac{1}{2m} \sum_{i=1}^m(f_{w, b}(x^{(i)}) - y^{(i)})^2 \]

擬合的目標就是找到合適的\(w,b\)引數能夠使得代價函式最小，即\(\hat{y}\)與\(y\)最接近
（批次）梯度下降演算法

可以使用梯度下降演算法來更新\(w,b\)引數，從而找到最合適的值：

\[\left\{ \begin{matrix} w=w-\alpha \frac{\partial}{\partial w} J(w, b) \\ b=b-\alpha \frac{\partial}{\partial b} J(w, b) \end{matrix}\right. ,其中\alpha 是學習率，\partial表示偏導數 \]

將代價函式代入進去即可得到：

\[\left\{ \begin{matrix} w= w-\alpha\frac{1}{m}\sum\limits_{i=1}^m (f_{w, b}(x^{(i)}) - y^{(i)})x^{(i)}\\ b= b-\alpha \frac{1}{m}\sum\limits_{i=1}^m (f_{w, b}(x^{(i)}) - y^{(i)}) \end{matrix}\right. ,其中\alpha 是學習率 \]

執行梯度下降演算法：

2.多元線性迴歸

擬合函式：

當資料集中有多個特徵\(x_{1},x_{2},...x_{n}\)時：

\[f_{w_1,w_2,...,b}(x_1,x_2...) = w_{1}x_{1} +w_{2}x_{2} + ... +w_{n}x_{n} +b ,其中w_{1},w_{2},...,b為引數 \]
向量化

將引數\(w\)和特徵\(x\)進行向量化：

\[f_{\vec{w}, b}(\vec{x}) = \vec{w}\vec{x}+b ,其中\vec{w},b為引數, \]
梯度下降演算法：

原來的公式變為：

\[\left\{ \begin{matrix} w_1= w_1-\alpha\frac{1}{m}\sum\limits_{i=1}^m (f_{\vec{w}, b}(\vec{x}^{(i)}) - y^{(i)})\vec{x_1}^{(i)}\\ …… \\ w_n= w_n-\alpha\frac{1}{m}\sum\limits_{i=1}^m (f_{\vec{w}, b}(\vec{x}^{(i)}) - y^{(i)})\vec{x_n}^{(i)}\\ b= b-\alpha \frac{1}{m}\sum\limits_{i=1}^m (f_{\vec{w}, b}(\vec{x}^{(i)}) - y^{(i)}) \end{matrix}\right. ,其中\alpha 是學習率 \]

3.多項式迴歸

特徵工程

特徵工程是將原始資料轉換為更好地代表預測模型的潛在問題的特徵的過程，從而提高了對未知資料的預測準確性，直接決定了模型預測的結果好壞。俗話說就是對已有的特徵進行預處理，比如已知房子的長和寬，此時可以增加房子的面積作為其新的特徵，然後對模型進行預測。
多項式迴歸

根據所給的特徵，利用該特徵對資料進行預處理，擬合函式為原特徵的多項式型別。

比如原始特徵為\(x\),擬合函式為\(f_{\vec{w},b}=w_1x+w_2x^2+w_3x^3+b\)

分類問題

利用大量的樣本，透過有監督的學習找到一個決策邊界來完成分類的決策，其中決策為離散值

邏輯迴歸

線性迴歸可以預測連續值，但是不能解決分類問題，我們需要根據預測的結果判定其屬於正類還是負類。所以邏輯迴歸就是將線性迴歸的\((-\infty,+\infty)\)結果，透過\(sigmoid\)函式對映到\((0,1)\)之間，來作為該結果的機率。

線性迴歸：\(z=\vec{w}\vec{x}+b\)

將其透過\(g(x)= sigmoid\)函式，獲得邏輯迴歸的決策函式：

\[f_{\vec{w},b}(\vec{x})=g(z)=sigmoid(z)=\frac{1}{1+e^{z}}=\frac{1}{1+e^{-(\vec{w} \cdot \vec{x}+b)}} \]

極大似然估計

極大似然估計是數理統計中引數估計的一種重要方法。其思想就是一個事件發生了，那麼發生這個事件的機率就是最大的。對於樣本\(i\)，其類別為\(y_{i}\epsilon (0,1)\)。對於樣本\(i\)，可以把\(h(\mathbf{x}_i)\)看成是一種機率：\(\mathbf{x}_i\)對應是1時，機率是\(h(\mathbf{x}_i)\)，即\(\mathbf{x}_i\)屬於1的可能性；\(\mathbf{x}_i\)對應是0時，機率是\(1-h(\mathbf{x}_i)\)，即\(\mathbf{x}_i\)屬於0的可能性。那麼它構造極大似然函式：

\[\prod_{i=1}^{i=k} h\left(\mathbf{x}_{i}\right) \prod_{i=k+1}^{m}\left(1-h\left(\mathbf{x}_{i}\right)\right) \\ 其中i從0到k是屬於類別1的個數k,i從k+1到m是屬於類別0的個數n-k。 \]
由於\(y_i\)是標籤0或1，所以上面的式子也可以寫成：

\[\prod_{i=1}^{m} h\left(\mathbf{x}_{i}\right)^{y_{i}}\left(1-h\left(\mathbf{x}_{i}\right)\right)^{1-y_{i}} \]
這樣無論\(y\)是0還是1，其中始終有一項會變成0次方，也就是1，和第一個式子是等價的。

為了方便，我們對式子取對數。因為是求機率最大，即式子的最大值，可以轉換成式子乘以-1，之後求最小值。同時對於m個資料，累加後值會很大，之後如果用梯度下降容易導致梯度爆炸，所以可以除以樣本總數m，式子變為：

\[\frac{1}{m} \sum_{i=1}^{n}-y_{i} \ln \left(h\left(\mathbf{x}_{i}\right)\right)-\left(1-y_{i}\right) \ln \left(1-h\left(\mathbf{x}_{i}\right)\right) \]
代價函式

可以根據上面的最大似然估計定義邏輯迴歸的代價函式：

\[J(\vec{w},b) =-\frac{1}{m} \sum_{i=1}^{m}\left[y^{(i)} \ln \left(f_{\vec{w}, b}\left(\vec{x}^{(i)}\right)\right)+\left(1-y^{(i)}\right) \ln \left(1-f_{\vec{w}, b}(\vec{x}^{(i)})\right)\right] \]
梯度下降演算法

此處涉及數學求導，可以跳過

已知代價函式，梯度下降的目標就是找到合適的\(\vec{w},b\)引數能夠使得代價函式最小，即使得預測結果的機率最大。根據梯度下降演算法的流程，我們需要對代價函式做導數運算：

\[\begin{array}{l} \frac{\partial J(\vec{w},b)}{w_j}=- \frac{1}{m} \sum \limits_{i=1}^{m}[{y}^{(i)} \frac{1}{g(z)}-(1-y^{(i)}) \frac{1}{1-g(z)}] \frac{\partial g(z)}{\partial w_j} \\ =- \frac{1}{m} \sum \limits_{i=1}^{m}[y^{(i)} \frac{1}{g(z)}-(1-y^{(i)}) \frac{1}{1-g(z)}] \cdot g(z)(1-g(z)) \cdot \frac{\partial z}{\partial {w}_{j}} \\ =- \frac{1}{m} \sum \limits_{i=1}^{m}[y^{(i)}(1-g(z))-(1-y^{(i)}) g(z)] \cdot x_j^{(i)} \\ =- \frac{1}{m} \sum \limits_{i=1}^{m}(y^{(i)}-g(z)) \cdot x_j^{(i)} \\ =\frac{1}{m} \sum \limits_{i=1}^{m}(g(z)-y^{(i)}) \cdot x_j^{(i)} \\ =\frac{1}{m} \sum \limits_{i=1}^{m}[f_{\vec{w}, b}(\vec{x}^{(i)})-y^{(i)}] \cdot x_j^{(i)} \end{array} \]
其中\(\frac{\partial g(z)}{\partial w_j}\)的計算如下：

\[\frac{\partial g(z)}{\partial w_j} =\frac{\partial \frac{1}{1+e^{-z}}}{\partial w_j} = - \frac{1}{(1+e^{-z)^2}} \cdot e^{-z} \cdot (-1) \cdot \frac{\partial z}{\partial {w}_{j}} = g(z)(1-g(z)) \cdot \frac{\partial z}{\partial {w}_{j}} \]
然後進行梯度下降：

\[\left\{ \begin{matrix} w_1= w_1-\alpha\frac{1}{m}\sum\limits_{i=1}^m (f_{\vec{w}, b}(\vec{x}^{(i)}) - y^{(i)})\vec{x_1}^{(i)}\\ …… \\ w_n= w_n-\alpha\frac{1}{m}\sum\limits_{i=1}^m (f_{\vec{w}, b}(\vec{x}^{(i)}) - y^{(i)})\vec{x_n}^{(i)}\\ b= b-\alpha \frac{1}{m}\sum\limits_{i=1}^m (f_{\vec{w}, b}(\vec{x}^{(i)}) - y^{(i)}) \end{matrix}\right. ,其中\alpha 是學習率 \]
可以發現其形式竟然和線性迴歸的形式一樣，不過這裡的\(f_{\vec{w}, b}(\vec{x}^{(i)})\)和線性迴歸的已經不一樣了。

資料處理

特徵縮放（歸一化）

可以透過變換來將各個特徵統一到一個合適的範圍內，資料歸一化後，最優解的尋優過程明顯會變得平緩，更容易正確的收斂到最優解:
- 線型比例變換
  
  \[x_{i}^{\prime}=\frac{x_{i}}{\max (x)} \]
- 極差變換：
  
  \[x_{i}^{\prime}=\frac{x_{i}-\min (x)}{\max (x)-\min (x)} \]
- 標準差變換：
  
  \[x_{i}^{\prime}=\frac{x_{i}-μ}{\sigma} \\ μ為所有樣本資料的均值，σ為所有樣本資料的標準差 \]
過擬合和欠擬合