感知機與支援向量機 (SVM)

ZhiboZhao發表於2021-06-24

原文網址 : https://www.cnblogs.com/zhaozhibo/p/14929059.html

感知機與SVM一樣都是使用超平面對空間線性可分的向量進行分類，不同的是：感知機的目標是儘可能將所有樣本分類正確，這種策略指導下得出的超平面可能有無數個，然而SVM不僅需要將樣本分類正確，還需要最大化最小分類間隔，對SVM不熟悉的朋友可以移步我另一篇文章：支援向量機(SVM)之硬閾值 - ZhiboZhao - 部落格園 (cnblogs.com)。

為了系統地分析二者的區別，本文還是首先介紹感知機模型，學習策略以及求解思路

一、感知機模型

還是假定在 $p$ 維空間有 $m$ 組訓練樣本對，構成訓練集 $T = { (x_{1}, y_{1}), (x_{2}, y_{2}),...,(x_{n}, y_{n})} $，其中 $x_{i} \in R^{1 \times p}$，$y_{i}\in \{-1, +1\}$，以二維空間為例，線上性可分的情況下，所有樣本在空間可以描述為：

在上圖中，紫色和藍色的圓形代表不同的類別，紅色的實線表示任意一條能夠將這兩種區分的超平面，理論上這種超平面有無數條，都有可能是感知機的解，然而SVM的模型解出來的超平面很有可能通過最大化最小間隔的策略得到的黑色的實線。我們將超平面表示為：$\Phi: b+w_{1}x_{1}+w_{2}x_{2}+...+w_{p}x_{p} = 0$，寫成矩陣形式為：$\Phi: w^{T}x + b = 0$，根據高中數學的知識，可以得出 $ w $ 表示超平面的法向量，$b$ 表示超平面的截距。感知機的最終目標可以表示為：

\[w^{T}x_{i}+b>0,\quad if \quad y_{i}=1\\ w^{T}x_{i}+b<0,\quad if \quad y_{i}=-1 \]

通過有監督的訓練，不斷地學習超平面的引數 $(w, b)$，最終找到一個超平面 $f(x) = w^{T}x + b$ 網路能夠根據任意輸入 $x_{i}$ 輸出對應的值來區分不同的模型。

二、感知機的學習策略

感知機是根據錯誤驅動的思想來進行學習，具體來說，先給待學習引數 $(w,b)$ 一個初始值，得到的初始超平面一般無法正確區分類別，我們用集合 $D$ 來代表被錯誤分類的樣本，那麼最終的學習策略就是最小化被錯誤分類的點的個數，定量表示如下：

\[L(w,b) = \sum_{i=1}^{n}\psi (y_{i}(w^{T}x_{i}+b) \]

函式 $\psi(x)$ 定義為：

\[\psi(x) = 1, \quad if\quad x<0\\ \psi(x) = 0, \quad if\quad x>0 \]

因為當 $y_{i}f(x_{i}) = y_{i}(w^{T}x_{i}+b) <0$ 時，該點被錯誤分類，於是損失函式 $L(w,b)$ 就記錄了總共被錯誤分類的個數，最小化loss就能求出超平面引數。

然而隨著 $(w,b)$ 的改變，指示函式 $\psi$ 要麼為0，要麼為1，是一個不連續的函式，因此損失函式不可導，也就不容易求出極值，需要將 $L(w,b)$ 轉換成 $(w,b)$ 的連續函式。

根據高中知識，我們得到空間內任意一點到超平面的距離為：

\[distance = \dfrac{1}{||w||}|w^{T}x_{i}+b| \]

那麼對於正確分類的正樣本點，其到超平面的距離設為正數，對於正確分類的錯樣本點，其道超平面的距離設為複數，那麼所有正確分類的樣本到超平面的距離可以表示為：

\[d = y_{i}\dfrac{1}{||w||}(w^{T}x_{i}+b) \]

因此，所有錯誤分類的樣本的到超平面的總距離就可以表示為：

\[d = -y_{i}\dfrac{1}{||w||}(w^{T}x_{i}+b) \Longleftrightarrow -y_{i}(w^{T}x_{i}+b) \]

所以，感知機的損失函式最終定義為：

\[L(w,b) = -\sum_{i\in D}y_{i}(w^{T}x_{i}+b) \]

顯然：

當正類樣本被分成負類樣本時 $w^{T}x_{i}+b < 0,y_{i}>0$，

當負類樣本被分成正類樣本時 $w^{T}x_{i}+b > 0,y_{i}<0$，

因此，損失函式是非負的，且分類錯誤的點就越少，分類錯誤的點就離超平面越近，其值越小。

三、感知機的求解演算法

由於損失函式 $L(w,b)$ 是自變數的連續函式，因此可以用隨機梯度下降 (SGD) 的方式進行求解。那麼損失函式的梯度如下：

\[\nabla_{w}L(w,b) = \dfrac{\partial L(w,b)}{\partial w} = -\sum_{x_{i} \in D}y_{i}x_{i}\\ \nabla_{b}L(w,b) = \dfrac{\partial L(w,b)}{\partial b} = -\sum_{x_{i} \in D}y_{i} \]

採用隨機梯度下降法更新的公式為：

\[w = w+\eta y_{i}x_{i};\quad b = b+\eta y_{i} \]

支援向量機（SVM）
2023-09-26
SVM——支援向量機（完整）
2020-05-25
SVM_支援向量機
2020-11-04
[譯] 支援向量機（SVM）教程
2018-12-13
對SVM支援向量機（1）
2020-10-26
機器學習——支援向量機（SVM）
2018-05-28
機器學習
機器學習：支援向量機(SVM)
2020-08-17
機器學習
機器學習——支援向量機SVM（一）
2018-12-08
機器學習
支援向量機（Support Vector Machine，SVM）——　線性SVM
2018-12-28
Mac
支援向量機(SVM)之硬閾值
2021-06-24
支援向量機 (二)：軟間隔 svm 與核函式
2019-07-01
函式
人工智慧-機器學習-支援向量機SVM
2024-05-17
人工智慧機器學習
分類演算法-支援向量機 SVM
2020-01-19
演算法
支援向量機（SVM）和python實現（二）
2021-09-09
Python
【Python機器學習實戰】感知機和支援向量機學習筆記（三）之SVM的實現
2021-08-11
Python機器學習筆記
機器學習基礎專題：支援向量機SVM
2020-10-18
機器學習
《機器學習_07_01_svm_硬間隔支援向量機與SMO》
2020-05-20
機器學習
機器學習基礎篇：支援向量機（SVM）理論與實踐
2021-08-20
機器學習
OpenCV筆記（3）實現支援向量機（SVM）
2018-04-11
OpenCV筆記
演算法金 | 再見，支援向量機 SVM！
2024-05-29
演算法
SVM 支援向量機演算法-實戰篇
2021-01-22
演算法
SVM 支援向量機演算法-原理篇
2021-01-20
演算法
《機器學習_07_03_svm_核函式與非線性支援向量機》
2020-05-21
機器學習函式
支援向量機（SVM）從原理到python程式碼實現
2020-12-10
Python
機器學習演算法筆記之5：支援向量機SVM
2020-04-06
機器學習演算法筆記
機器學習(四)：通俗理解支援向量機SVM及程式碼實踐
2021-02-15
機器學習
支援向量機SVM：從數學原理到實際應用
2023-11-18
支援向量機
2024-05-03
吳恩達《Machine Learning》精煉筆記 7：支援向量機 SVM
2021-01-16
吳恩達Mac筆記
支援向量機之線性可分向量機
2022-04-28
學習SVM（二）如何理解支援向量機的最大分類間隔
2019-03-01
一文讀懂支援向量機SVM（附實現程式碼、公式）
2018-06-02
公式
學習SVM（四）理解SVM中的支援向量（Support Vector）
2018-09-06
機器學習之-搞定支援向量機（SVM）【人工智慧工程師--AI轉型必修課】
2020-04-04
機器學習人工智慧工程師AI
機器學習之支援向量與間隔
2020-07-04
機器學習
非線性支援向量機與核函式
2021-09-09
函式
支援向量機(SVM)的約束和無約束優化、理論和實現
2019-02-18
優化
【機器學習】支援向量機分類
2022-07-13
機器學習

感知機與支援向量機 (SVM)

一、感知機模型

二、感知機的學習策略

三、感知機的求解演算法

相關文章