演算法金 | 再見,支援向量機 SVM!

算法金「全网同名」發表於2024-05-29


大俠幸會,在下全網同名「演算法金」 0 基礎轉 AI 上岸,多個演算法賽 Top 「日更萬日,讓更多人享受智慧樂趣」

今日 170+/10000

一、SVM概述

定義與基本概念

支援向量機(SVM)是一種監督學習模型,用於解決分類和迴歸問題。它的核心思想是在特徵空間中尋找一個最優的超平面,以此作為決策邊界來區分不同類別的資料。SVM的目標是最大化這個決策邊界的間隔,即資料點到超平面的最短距離。間隔越大,模型的泛化能力越強,越能減少過擬合的風險。SVM由 Vapnik 在 1995 年提出,因其出色的效能和廣泛的應用,迅速成為機器學習領域的一個重要演算法。

SVM的發展歷史和應用領域

SVM 的發展可以追溯到 1963 年,當時 Vapnik 和 Chervonenkis 提出了一種基於最大間隔的分類方法。1990 年代,Vapnik 等人進一步發展了這一方法,並引入了核技巧,使得 SVM 能夠處理非線性問題。如今,SVM 已經被廣泛應用於多個領域,包括影像識別、文字分類、生物資訊學、金融市場分析等。特別是在高維資料集上,SVM 展現出了卓越的效能。

SVM與其他機器學習演算法的比較

與其他機器學習演算法相比,SVM 在處理高維資料集時具有明顯的優勢。它不僅能夠提供較高的分類準確率,而且泛化能力強,不容易過擬合。

如下試驗中,SVM表現均最優,是神經網路崛起前名副其實的王者

二、SVM的關鍵術語

超平面:資料分類的邊界

超平面是 SVM 中用於區分不同類別資料的線性邊界。在二維空間中,它表現為一條直線;在三維空間中,它是一個平面;而在更高維的空間中,則是一個超平面。超平面的方程通常由權重向量和偏置項確定。

間隔:超平面與最近資料點的距離

間隔指的是超平面與最近的資料點之間的距離。間隔的大小直接影響到 SVM 模型的泛化能力。一個較大的間隔意味著模型在面對新的、未見過的資料時,有更高的準確率。

支援向量:決定超平面位置的關鍵資料點

支援向量是那些位於間隔邊緣的資料點,它們是 SVM 模型中最關鍵的部分。這些資料點支撐著超平面,決定了其位置和方向。如果從資料集中移除這些支援向量,超平面的位置將會發生改變,從而影響模型的分類能力。

三、SVM的工作原理

分類問題的直觀理解

在分類問題中,SVM 的目標是找到一個能夠最好地區分不同類別的決策邊界。這個邊界被稱為超平面,它能夠將資料空間劃分為兩部分,每部分包含一個類別的所有資料點。SVM 透過最大化資料點到這個超平面的間隔來確定最優的決策邊界,從而確保分類的準確性和模型的泛化能力。

超平面與決策邊界的概念

超平面是 SVM 中用於分類的線性邊界,它可以是二維空間中的直線,三維空間中的平面,或者更高維空間中的超平面。決策邊界是超平面在資料空間中的投影,它定義了資料點的分類。SVM 透過最佳化這些邊界來實現對資料點的最佳分類。

間隔最大化原則

間隔是超平面與最近資料點之間的距離。SVM 的間隔最大化原則是指在所有可能的超平面中,選擇一個使得間隔最大的超平面作為決策邊界。這樣做可以提高模型的泛化能力,因為它減少了模型對訓練資料中噪聲的敏感性。

支援向量的作用與重要性

支援向量是那些位於間隔邊緣的資料點,它們是定義超平面位置的關鍵。這些資料點對模型的構建至關重要,因為它們直接影響到超平面的位置和方向。如果移除了這些支援向量,超平面的位置將會改變,從而導致模型效能的下降。因此,在 SVM 中,支援向量的識別和利用是實現最優分類的關鍵步驟。

四、線性與非線性SVM

線性SVM:適用於線性可分資料

線性 SVM 是 SVM 演算法的基本形式,它在處理線性可分資料集時非常有效。這種型別的 SVM 透過在特徵空間中尋找一個線性超平面來分隔不同類別的資料點。線性 SVM 的優點在於其簡單性和計算效率。

非線性SVM:透過核函式處理非線性可分資料

當資料集不是線性可分的時候,非線性 SVM 透過核函式將原始資料對映到一個更高維的空間,使得資料在這個新空間中線性可分。這種方法允許 SVM 處理更復雜的資料關係和模式。

核函式的型別與選擇

核函式是一種數學工具,用於在不顯式計算高維空間中的點積的情況下,將資料對映到高維空間。常用的核函式包括線性核、多項式核、徑向基函式(RBF)核和 Sigmoid 核等。選擇合適的核函式對於提高 SVM 模型的效能至關重要。

五、SVM的優缺點

優點:高維資料處理能力強,泛化效能好

SVM 演算法在處理高維資料集時表現出色,能夠有效地找到最優的決策邊界。由於其間隔最大化原則,SVM 具有很好的泛化能力,能夠減少過擬合的風險,使得模型在未知資料上也能保持較高的準確率。

缺點:引數選擇複雜,計算成本高,對噪聲敏感

SVM 演算法的效能受到核函式和正則化引數選擇的影響,這些引數需要透過交叉驗證等方法來確定,過程較為複雜。此外,SVM 的計算成本相對較高,尤其是在處理大規模資料集時。SVM 對噪聲資料也比較敏感,這可能會影響模型的效能和泛化能力。

六、SVM在實際問題中的應用

二元分類問題

SVM 在處理二元分類問題時非常有效,例如在垃圾郵件識別中,SVM 能夠準確地將郵件分類為垃圾郵件或非垃圾郵件。其強大的分類能力和對高維資料的處理能力使其成為這類問題的理想選擇。

文字分類與情感分析

在文字分類和情感分析領域,SVM 透過提取文字特徵來進行分類任務。它可以區分不同類別的文件,如新聞文章的分類,或者在社交媒體上對使用者評論的情感傾向進行分類。

影像識別與物體檢測

SVM 也被廣泛應用於影像識別和物體檢測任務中。例如,在面部識別系統中,SVM 可以用於區分不同的人臉特徵。此外,它還可以用於影像中的物體識別和場景分類。

醫學診斷與生物資訊學

在醫學診斷領域,SVM 可以分析醫學影像,如 MRI 或 CT 掃描,以輔助診斷。在生物資訊學中,SVM 用於分析基因表達資料,幫助識別疾病標記物或預測疾病風險。

七、SVM的模型建立

資料預處理的重要性

在建立 SVM 模型之前,進行資料預處理是至關重要的一步。這包括資料清洗、標準化和歸一化等步驟,以確保資料的質量並提高模型的效能。預處理可以幫助減少模型訓練時間,並提高模型對新資料的泛化能力。

選擇合適的核函式和引數

SVM 的效能在很大程度上取決於核函式的選擇和引數的設定。核函式的選擇決定了資料在特徵空間中的對映方式,而引數則影響模型的複雜度和對資料的擬合程度。通常需要透過交叉驗證等方法來選擇最合適的核函式和引數。

軟間隔與硬間隔的概念

硬間隔 SVM 要求所有的訓練資料點都必須正確分類,並且與決策邊界保持一定的距離。而軟間隔 SVM 允許一些資料點違反間隔原則,以換取更好的泛化能力。軟間隔透過引入鬆弛變數來實現,這使得模型在面對複雜資料集時更加靈活。

正則化和模型複雜度控制

正則化是防止 SVM 模型過擬合的重要技術。透過在損失函式中加入正則化項,可以控制模型的複雜度,避免模型對訓練資料過度擬合。正則化引數的選擇需要權衡模型的複雜度和分類誤差,以達到最佳的泛化效能。

import numpy as np
import matplotlib.pyplot as plt
from sklearn import svm
from sklearn.datasets import make_blobs, make_circles

# 建立一個線性可分資料集
def generate_linear_data():
    # 假設 "武當" 和 "少林" 是兩個不同的武俠門派
    X, y = make_blobs(n_samples=100, centers=[[-2, 2], [2, -2]], cluster_std=0.8, random_state=42)
    y = np.where(y == 0, '武當', '少林')
    return X, y

# 建立一個線性不可分資料集
def generate_nonlinear_data():
    # 假設 "武當" 和 "少林" 是兩個不同的武俠門派
    X, y = make_circles(n_samples=100, factor=0.5, noise=0.1, random_state=42)
    y = np.where(y == 0, '武當', '少林')
    return X, y

# 視覺化資料集
def plot_data(X, y, title, ax):
    colors = ['r' if label == '武當' else 'b' for label in y]
    ax.scatter(X[:, 0], X[:, 1], c=colors, edgecolor='k', s=100)
    ax.set_title(title)
    ax.set_xlabel('特徵 1')
    ax.set_ylabel('特徵 2')

# 視覺化決策邊界
def plot_decision_boundary(X, y, clf, title, ax):
    colors = ['r' if label == '武當' else 'b' for label in y]
    ax.scatter(X[:, 0], X[:, 1], c=colors, edgecolor='k', s=100)

    xlim = ax.get_xlim()
    ylim = ax.get_ylim()

    xx, yy = np.meshgrid(np.linspace(xlim[0], xlim[1], 100),
                         np.linspace(ylim[0], ylim[1], 100))
    Z = clf.decision_function(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)

    ax.contour(xx, yy, Z, colors='k', levels=[0], alpha=0.5, linestyles=['-'])
    ax.set_title(title)
    ax.set_xlabel('特徵 1')
    ax.set_ylabel('特徵 2')

# 生成線性可分資料集並訓練 SVM
X_linear, y_linear = generate_linear_data()
clf_linear = svm.SVC(kernel='linear')
clf_linear.fit(X_linear, y_linear)

# 生成線性不可分資料集並訓練 SVM
X_nonlinear, y_nonlinear = generate_nonlinear_data()
clf_nonlinear = svm.SVC(kernel='rbf', gamma=1)
clf_nonlinear.fit(X_nonlinear, y_nonlinear)

# 建立影像網格
fig, axes = plt.subplots(2, 2, figsize=(12, 8))

# 視覺化線性可分資料集
plot_data(X_linear, y_linear, "線性可分資料集 (武當 vs 少林)", axes[0, 0])
plot_decision_boundary(X_linear, y_linear, clf_linear, "線性 SVM 決策邊界 (武當 vs 少林)", axes[0, 1])

# 視覺化線性不可分資料集
plot_data(X_nonlinear, y_nonlinear, "線性不可分資料集 (武當 vs 少林)", axes[1, 0])
plot_decision_boundary(X_nonlinear, y_nonlinear, clf_nonlinear, "非線性 SVM 決策邊界 (武當 vs 少林)", axes[1, 1])

plt.tight_layout()
plt.show()

程式碼說明

  1. 生成線性可分資料集:使用 make_blobs 函式生成兩個不同的中心點,分別代表 "武當" 和 "少林" 兩個門派。
  2. 生成線性不可分資料集:使用 make_circles 函式生成圓環形資料,模擬 "武當" 和 "少林" 門派的資料,代表非線性可分的情況。
  3. 視覺化資料集:透過顏色區分不同門派的資料點,並標註出兩個特徵的座標。
  4. 訓練 SVM 模型:分別對線性可分資料集和線性不可分資料集訓練 SVM 模型,使用不同的核函式(線性核和 RBF 核)。
  5. 視覺化決策邊界:繪製 SVM 模型的決策邊界,展示模型如何區分不同門派的資料。

這個示例將武俠元素融入資料集中,直觀展示了 SVM 如何處理線性可分和線性不可分的資料。

相關文章