支援向量機

全稱Support Vector Machine (SVM)。可以分為硬間隔（hard margin SVM），軟間隔（soft margin SVM），和核支援向量機（kernel margin SVM）。

原理

輸入

訓練集資料 $D = {(x_1,y_1) ... (x_M,y_M)}$ ， $x_i \in \mathcal{X} \subseteq R^p$ ， $y_i \in R$

$(x_1\ x_2\ ...\ x_M)^T \in R^{M*p}$

$f(x) = sign(w^Tx+b)$

正則化引數 $\lambda_1$ ， $\lambda_2$

輸出

線性迴歸模型 $\hat f(x)$

損失函式

硬間隔SVM也稱為最大間隔分類器。

$margin(w, b) = min\ distance(w, b, x_i)$

為了簡化運算，我們指定最小的margin為1（可以通過縮放實現）。我們希望達成以下目標。

$max\ margin(w, b)\ s.t.\ y_i(w^Tx_i+b) > 0 \ \forall \ i =1 \sim M$

進行數學推導，
$max\ margin(w, b) = max_{w, b} min_{x_i} \frac{1} {||w||} y_i(w^T x_i + b) \\\\ = max_{w, b} \frac{1} {||w||} min_{x_i} y_i(w^T x_i + b) \\\\$
可以簡化成
$\ margin(w, b) = max_{w, b} \frac{1} {||w||} \\\\ s.t. \ y_i(w^Tx_i + b) >= 1 \ \forall \ i =1 \sim M$
或者
$\ margin(w, b) = min_{w, b} {||w||} \\\\ s.t. \ y_i(w^Tx_i + b) >= 1 \ \forall \ i =1 \sim M$
從而我們很容易得到損失函式（ $\lambda \ge 0$ ），
$\lambda) = \frac 1 2 w^Tw + \sum_{i=1}^M \lambda_i(1 - y_i(w^Tx_i+b)) \\\\ min_{w, b} \ max_{\lambda} L(w,b,\lambda) \ s.t. \ \lambda_i \ge 0$
當 $y_i(w^Tx_i+b) > 0$ 時，很容易證明 $L$ 的最大值是正無窮。當 $y_i(w^Tx_i+b) \le 0$ 時， $L$ 的最大值是在 $\lambda$ 取0時，整體等於$\frac 1 2 w^Tw $。

我們可以證明 $\ max \ L = max \ min \ L$ ，此處省略。這個被稱為強對偶關係。

我們將上面的原問題轉化成對偶問題如下，
$max_{\lambda}\ min_{w, b} \ L(w,b,\lambda) \ s.t. \ \lambda_i \ge 0$
進行求導，
$min_{w, b} \ L(w,b,\lambda) \\\\ \frac{\partial L} {\partial b} = \frac{\partial [\sum_{i=1}^M \lambda_i - \sum_{i=1}^M \lambda_i y_i(w^Tx_i+b)]} {\partial b} = 0\\\\ 解得\sum_{i=1}^M \lambda_i y_i= 0 \\\\ 將其代入 L \\\\ L(w, b, \lambda) = \frac 1 2 w^Tw + \sum_{i=1}^M \lambda_i - \sum_{i=1}^M \lambda_i y_i w^T x_i \\\\ \frac{\partial L} {\partial w} = 0 \\\\ w^* = \sum_{i=1}^M \lambda_i y_i w^T x_i \\\\ 將其代入 L \\\\ L(w, b, \lambda) \\\\ = \frac 1 2 (\sum_{j=1}^M \lambda_j y_j w^T x_j)^T(\sum_{j=1}^M \lambda_j y_j w^T x_j) + \sum_{i=1}^M \lambda_i - \sum_{i=1}^M \lambda_i y_i (\sum_{j=1}^M \lambda_j y_j w^T x_j)^T x_i \\\\ = -\frac 1 2 (\sum_{i=1}^M \sum_{j=1}^M \lambda_i \lambda_j y_i y_j x_i x_j) + \sum_{i=1}^M \lambda_i$

從而，我們將問題再次進行了轉換，我的目標是
$min_{\lambda} \ \frac 1 2 (\sum_{i=1}^M \sum_{j=1}^M \lambda_i \lambda_j y_i y_j x_i x_j) - \sum_{i=1}^M \lambda_i \\\\ \lambda_i \ge 0 \\\\ \sum_{i=1}^M \lambda_i y_i = 0$
因為我們的原問題和對偶問題具有強對偶關係，我們通過KKT條件
$\frac {\partial L} {\partial w} = 0 \\\\ \frac {\partial L} {\partial b} = 0 \\\\ \frac {\partial L} {\partial \lambda} = 0 \\\\ \lambda_i(1-y_i(w^Tx_i+b)) = 0 \\\\ \lambda_i \ge 0 \\\\ 1-y_i(w^Tx_i+b) \le 0$
可以得到最優解，

$w^* = \sum_{i=1}^M \lambda_i y_i x_i$

我們還需要代入一個處於邊界上的點 $x_k, y_k)$ 滿足$ 1-y_k(w^Tx_k+b) = 0$，再求解偏置
$y_k(w^Tx_k+b) = 0 \\\\ y_k(w^Tx_k+b) = 1 \\\\ y_k^2(w^Tx_k+b) = y_k \\\\ (w^Tx_k+b) = y_k \\\\ b^* = y_k - w^Tx_k \\\\ b^* = y_k - \sum_{i=1}^M \lambda_i y_i x_i^T x_k$
軟間隔SVM允許少量錯誤。

$\frac 1 2 w^Tw + loss$

我們可以將後面額外的損失定義為0-1 loss，更常用的是hinge loss。

那麼，我們可以重新定義損失函式為
$min_{w,b} \frac 1 2 w^Tw + C*\sum_{i=1}^M max(0, 1-y_i(w^Tx_i+b)) \\\\ 1-y_i(w^Tx_i+b) \le 0$
$C$ 起到了一個正則化的作用。

適用場景

普遍適用。

優點

邊界只由少數的支援向量所決定，避免維度災難
可解釋性好
對離群資料敏感度較小，魯棒性高

缺點

對大規模訓練樣本而言，消耗大量記憶體和運算時間
解決多分類問題時，需要多組SVM模型

核方法

對應英文是Kernel Method。核方法用於解決有資料集類別之間的邊界壓根不是線性的。對於原始的輸入空間 $\mathcal X$ ，使用 $\phi(x)$ 進行非線性轉換成為特徵空間 $\mathcal Z$ ，從而達到線性可分的狀態。理論基礎是Cover Theorem，即高維空間比低維空間更易線性可分。

在 $\phi(x)$ 維度非常高的情況下，求 $\phi(x_i)$ 非常困難。我們發現有一種核技巧(kernel trick)，可以在不需要單獨計算 $\phi(x_i)$ 和 $\phi(x_j)$ 的前提下得到 $\phi(x_i)^T\phi(x_j)$ 。畢竟後者才是我們 $L$ 中需要得到的值。

$K(x_i, x_j) = \phi(x_i)^T\phi(x_j)$

一般情況下，我們的核函式 $K$ 指的是正定核函式。有函式 $K$ 可以做到從 $\mathcal X * \mathcal X$ 到 $R$ 的對映， $\exist \Phi \in \mathcal H$ ,使得 $K(x_i, x_j) = \phi(x_i)^T\phi(x_j)$ ，那麼稱 $K$ 為正定核函式。我們再介紹一下希爾伯特空間 $\mathcal H$ 。它是完備的（對極限是封閉的），可能是無限維的，被賦予內積運算的一個線性空間。

正定核函式性質

對稱性，即 $K(x_i, x_j) = K(x_j, x_i)$
正定性，即任取 $\mathcal X$ 中的M個元素，從 $x_1$ 到 $x_M$ ，對應的Gram matrix是半正定的

我們來證明正定核函式的性質。先證明必要性。

已知 $K(x_i, x_j) = <\phi(x_i),\phi(x_j)>$ ，要證明其對稱性和正定性。

對稱性可以由內積的對稱性證明。我們現在想要證明對應的Gram matrix是半正定的。令Gram matrix是 $G = [K(x_i, x_j)]$ 。所以需要證明對於任意 $\alpha \in R^M$ ，有 $\alpha^T G \alpha \ge 0$ 。
$\alpha^T G \alpha \\\\ = \sum_{i=1}^M \sum_{j=1}^M \alpha_i \alpha_j K(x_i, x_j) \\\\ = \sum_{i=1}^M \sum_{j=1}^M \alpha_i \alpha_j \phi(x_i)^T\phi(x_j) \\\\ = \sum_{i=1}^M \alpha_i \phi(x_i)^T \sum_{j=1}^M \alpha_j \phi(x_j) \\\\ = [\sum_{i=1}^M \alpha_i \phi(x_i)]^T [\sum_{j=1}^M \alpha_j \phi(x_j)] \\\\ = ||\sum_{i=1}^M \alpha_i \phi(x_i)||^2 \ge 0$
我們就證明了Gram Matrix是半正定的。

約束優化

我們定義原問題的最優解為 $d^*$ ，對偶問題的最優解是 $p^*$ 。

定義原問題 $min_x f(x)$ ，有N個不等式約束， $n_i(x) \le 0$ ，有M個等式約束， $m_i(x) = 0$

轉換後的原問題的無約束形式為 $min_x \ max_{\lambda, \eta} = L(x, \lambda, \eta)$ ， $\lambda_i \ge 0$

下面是轉換的說明。

拉格朗日函式：

$\lambda, \eta) = f(x) + \sum_{j=1}^N \lambda_j n_j + \sum_{i=1}^M m_i \eta_i$

如果 $x$ 違反了不等式約束，那麼 $max_\lambda L$ 一定會趨近於正無窮。所以在其前面加上一個 $m i n$ 相當於進行了一次過濾，將所有不滿足不等式約束的 $x$ 都過濾掉了。

弱對偶

我們接著證明原問題和對偶問題是相等的。對偶問題是 $max_x \ min_{\lambda, \eta} = L(x, \lambda, \eta)$ ， $\lambda_i \ge 0$ 。

我們先證明弱對偶性，原問題的值會大於等於對偶問題，即 $\ max \ L \ge max \ min \ L$ 。
$min_x \ L(x, \lambda, \eta) \le L(x, \lambda, \eta) \le max_{\lambda, \eta} \ L(x, \lambda, \eta) \\\\ A(\lambda, \eta) \le B(x) \\\\ A(\lambda, \eta) \le min \ B(x) \\\\ max \ A(\lambda, \eta) \le min \ B(x) \\\\$

Slater Condition

存在一點 $\in relint \ D$ ，使得對於所有的 $n_i(x) < 0$ 。relint代表相對內部。

對於大多數凸優化問題，slater條件成立。

放鬆的slater條件是指，如果N中有K個仿射函式，那麼只需要校驗其餘的函式滿足slater條件即可。

通過弱對偶和Slater Condition可以推出強對偶關係。強對偶關係是下面的KKT條件的充要條件。

庫恩塔克條件

通常被稱為KKT條件。

可行條件

有N個不等式約束， $n_i(x^*) \le 0$ ，有M個等式約束， $m_i(x^*) = 0$ ， $\lambda^* = 0$

互補鬆弛條件

$\lambda_j^* n_j = 0$
$d^* = max_{\lambda, \eta} g(\lambda, \eta) \\\\ = g(\lambda^*, \eta^*) \\\\ = min_x L(x, \lambda^*, \eta^*) \\\\ = L(x^*, \lambda^*, \eta^*) \\\\ = f(x^*) + \sum_{j=1}^N \lambda_j^* n_j + \sum_{i=1}^M m_i^* \eta_i \\\\ = f(x^*) + \sum_{j=1}^N \lambda_j^* n_j \\\\ = f(x^*) \\\\ = p^*$

梯度為0

$min_x L(x, \lambda^*, \eta^*) \\\\ = L(x^*, \lambda^*, \eta^*) \\\\$

Reference

白板推導系列，shuhuai007
支援向量機（SVM）的優缺點

機器學習基礎專題：支援向量機SVM