機器學習-邏輯迴歸:從技術原理到案例實戰

techlead_krischang發表於2023-12-06

在本篇文章中,我們對邏輯迴歸這一經典的機器學習演算法進行了全面而深入的探討。從基礎概念、數學原理,到使用Python和PyTorch進行的實戰應用,本文旨在從多個角度展示邏輯迴歸的內在機制和實用性。

關注TechLead,分享AI全維度知識。作者擁有10+年網際網路服務架構、AI產品研發經驗、團隊管理經驗,同濟本復旦碩,復旦機器人智慧實驗室成員,阿里雲認證的資深架構師,專案管理專業人士,上億營收AI產品研發負責人。

file

一、引言

邏輯迴歸(Logistic Regression)是一種廣泛應用於分類問題的監督學習演算法。儘管名字中含有“迴歸”二字,但這並不意味著它用於解決迴歸問題。相反,邏輯迴歸專注於解決二元或多元分類問題,如郵件是垃圾郵件還是非垃圾郵件,一個交易是欺詐還是合法等。

邏輯迴歸源於統計學,旨在模擬一個因變數和一個或多個自變數之間的關係。與線性迴歸不同,邏輯迴歸並不直接預測數值,而是估計樣本屬於某一類別的機率。這通常透過Sigmoid函式(或對數機率函式)來實現,該函式能夠將任何實數對映到0和1之間。

為了理解這種機率模型的重要性,我們可以考慮一下現代應用的複雜性。從金融風險評估、醫療診斷,到自然語言處理和影像識別,邏輯迴歸都找到了廣泛的應用。它之所以受歡迎,一方面是因為其模型簡單,易於理解和解釋;另一方面是因為它在處理大量特徵或者處理非線性關係時也具有很高的靈活性。

邏輯迴歸的演算法實現通常基於最大似然估計(Maximum Likelihood Estimation, MLE),這是一種針對模型引數進行估計的最佳化演算法。透過最佳化損失函式,演算法試圖找到最有可能解釋觀測資料的模型引數。

雖然邏輯迴歸在許多方面都很優秀,但它也有其侷限性。例如,它假定因變數和自變數之間存線上性關係,這在某些複雜場景下可能不成立。然而,透過特徵工程和正則化等手段,這些問題往往可以得到緩解。

總體而言,邏輯迴歸是機器學習領域中不可或缺的工具,其背後的數學原理和實際應用都值得深入研究。透過本文,我們將深入探討邏輯迴歸的各個方面,以期提供一個全面、深入且易於理解的視角。


二、邏輯迴歸基礎

file

邏輯迴歸是一種針對分類問題的監督學習模型。它起源於統計學,尤其是當我們希望預測一個二元輸出時,邏輯迴歸成為一個非常實用的工具。

從線性迴歸到邏輯迴歸

邏輯迴歸的思想是基於線性迴歸的,但有幾個關鍵的不同點。線上性迴歸中,我們試圖擬合一個線性方程來預測一個連續的輸出值。然而,在邏輯迴歸中,我們不是直接預測輸出值,而是預測輸出值屬於某一特定類別的機率。

舉例:醫學檢測

假設我們有一個用於檢測某種疾病(如糖尿病)的醫學測試。在這種情況下,線性迴歸可能會預測一個人患疾病的程度或嚴重性。但邏輯迴歸更進一步:它會預測一個人患疾病的機率,並根據這個機率進行分類——例如,機率大於0.5則判斷為陽性。

Sigmoid 函式

邏輯迴歸中最關鍵的組成部分是 Sigmoid(或稱為 logistic)函式。這個函式接受任何實數作為輸入,並將其對映到0和1之間,使其可以解釋為機率。

file

舉例:考試成績與錄取機率

考慮一個學生根據其考試成績被大學錄取的例子。線性迴歸可能會直接預測錄取機率,但數值可能會超過[0,1]的範圍。透過使用 Sigmoid 函式,我們可以確保預測值始終在合適的範圍內。

損失函式

在邏輯迴歸中,最常用的損失函式是交叉熵損失(Cross-Entropy Loss)。該損失函式度量模型預測的機率分佈與真實機率分佈之間的差距。

file

舉例:垃圾郵件分類

假設我們正在構建一個垃圾郵件過濾器。對於每封郵件,模型會預測這封郵件是垃圾郵件的機率。如果一封實際上是垃圾郵件(y=1)的郵件被預測為非垃圾郵件(yhat約等於0),損失函式的值會非常高,反之亦然。

優點與侷限性

優點

  1. 解釋性強:邏輯迴歸模型易於理解和解釋。
  2. 計算效率:模型簡單,訓練和預測速度快。
  3. 機率輸出:提供預測類別的機率,增加了解釋性。

侷限性

  1. 線性邊界:邏輯迴歸假設資料是線性可分的,這在某些複雜場景下可能不成立。
  2. 特徵選擇:邏輯迴歸對於不相關的特徵和特徵之間的相互作用比較敏感。

透過這個章節,我們可以看到邏輯迴歸在簡潔性和解釋性方面有著顯著的優點,但同時也存在一定的侷限性。


三、數學原理

file
理解邏輯迴歸背後的數學原理是掌握這一演算法的關鍵。這部分將深入解析邏輯迴歸的數學結構,包括機率模型、損失函式最佳化和特徵選擇。

機率模型

file

舉例:信用卡交易

想象你正在開發一個用於檢測信用卡欺詐交易的模型。在這種情況下,(X) 可能包括交易金額、地點、時間等特徵,模型會輸出這筆交易是欺詐交易的機率。

損失函式與最大似然估計

最常用於邏輯迴歸的損失函式是交叉熵損失。這其實是最大似然估計(MLE)在邏輯迴歸中的具體應用。

file

舉例:電子郵件分類

假設你正在構建一個電子郵件分類器來區分垃圾郵件和正常郵件。使用交叉熵損失函式,你可以透過最大化似然函式來“教”模型如何更準確地進行分類。

梯度下降最佳化

file

舉例:股票價格預測

雖然邏輯迴歸通常不用於迴歸問題,但梯度下降的最佳化演算法在很多其他型別的問題中也是通用的。例如,在預測股票價格時,同樣可以使用梯度下降來最佳化模型引數。

特徵選擇與正則化

特徵選擇在邏輯迴歸中非常重要,因為不相關或冗餘的特徵可能會導致模型效能下降。正則化是一種用於防止過擬合的技術,常見的正則化方法包括 L1 正則化和 L2 正則化。

file

舉例:房價預測

在房價預測模型中,可能有很多相關和不相關的特徵,如面積、地段、周圍學校數量等。透過使用正則化,你可以確保模型在擬合這些特徵時不會過於複雜,從而提高模型的泛化能力。

透過本章的討論,我們不僅深入瞭解了邏輯迴歸的數學基礎,還透過具體的例子和應用場景,讓這些看似複雜的數學概念更加貼近實際,易於理解。這有助於我們在實際應用中更加靈活地使用邏輯迴歸,以解決各種分類問題。


四、實戰案例

file
實戰是學習邏輯迴歸的最佳方式。在這一部分,我們將使用Python和PyTorch庫來實現一個完整的邏輯迴歸模型。我們將使用經典的鳶尾花(Iris)資料集,該資料集包括四個特徵:萼片長度、萼片寬度、花瓣長度、花瓣寬度,以及一個標籤,用於區分三種不同型別的鳶尾花。

資料準備

首先,我們需要載入和準備資料。

# 匯入所需庫
import torch
import torch.nn as nn
import torch.optim as optim
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# 載入資料
iris = load_iris()
X, y = iris.data, iris.target

# 由於邏輯迴歸是二分類模型,我們只取其中兩類資料
X, y = X[y != 2], y[y != 2]

# 資料分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 轉換為PyTorch張量
X_train = torch.FloatTensor(X_train)
X_test = torch.FloatTensor(X_test)
y_train = torch.LongTensor(y_train)
y_test = torch.LongTensor(y_test)

模型構建

接下來,我們定義邏輯迴歸模型。

class LogisticRegression(nn.Module):
    def __init__(self, input_dim):
        super(LogisticRegression, self).__init__()
        self.linear = nn.Linear(input_dim, 1)
        self.sigmoid = nn.Sigmoid()

    def forward(self, x):
        return self.sigmoid(self.linear(x))

模型訓練

現在我們可以開始訓練模型。

# 初始化模型、損失函式和最佳化器
model = LogisticRegression(X_train.shape[1])
criterion = nn.BCELoss()
optimizer = optim.SGD(model.parameters(), lr=0.01)

# 訓練模型
for epoch in range(1000):
    model.train()
    optimizer.zero_grad()

    # 前向傳播
    outputs = model(X_train).squeeze()
    loss = criterion(outputs, y_train.float())

    # 反向傳播和最佳化
    loss.backward()
    optimizer.step()

    if (epoch + 1) % 100 == 0:
        print(f'Epoch [{epoch+1}/1000], Loss: {loss.item()}')

模型評估

最後,我們用測試集來評估模型的效能。

# 測試模型
model.eval()
with torch.no_grad():
    test_outputs = model(X_test).squeeze()
    test_outputs = (test_outputs > 0.5).long()
    accuracy = (test_outputs == y_test).float().mean()
    print(f'Accuracy: {accuracy.item()}')

在這個實戰案例中,我們完整地展示瞭如何使用PyTorch來構建、訓練和評估一個邏輯迴歸模型。我們使用了鳶尾花資料集,但這個框架可以方便地應用到其他二分類問題上。


五、總結

在本篇文章中,我們全面、深入地探討了邏輯迴歸這一機器學習演算法。從基礎概念到數學原理,再到實戰應用。

  1. 機率模型的廣泛應用:邏輯迴歸通常被認為只適用於二分類問題,但其實,它可以作為一個機率模型用於多個領域。例如,在推薦系統中,邏輯迴歸可以用於估算使用者點選某個產品的機率。

  2. 損失函式與最佳化的複雜性:雖然邏輯迴歸本身是一個線性模型,但要最佳化它涉及到的數學卻並不簡單。這反映了一個普遍現象:即使是最基礎的機器學習演算法,也可以與複雜的數學結構相連線。

  3. 特徵選擇與正則化:在現實世界的資料科學專案中,特徵選擇和正則化往往比模型選擇更為關鍵。一個好的特徵工程和正則化策略可以顯著提升模型效能。

  4. 邏輯迴歸與深度學習:儘管深度學習在許多工上表現出色,但不應忽視傳統機器學習演算法的價值。邏輯迴歸在計算資源有限或資料集較小的場景中,往往能更快地達到令人滿意的效能。

透過深入分析和實戰應用,我們可以看到,邏輯迴歸並不是一個“簡單”的演算法,而是一個既實用又深刻的工具,其背後蘊藏著豐富的數學原理和實際應用潛力。

關注TechLead,分享AI全維度知識。作者擁有10+年網際網路服務架構、AI產品研發經驗、團隊管理經驗,同濟本復旦碩,復旦機器人智慧實驗室成員,阿里雲認證的資深架構師,專案管理專業人士,上億營收AI產品研發負責人。
如有幫助,請多關注
TeahLead KrisChang,10+年的網際網路和人工智慧從業經驗,10年+技術和業務團隊管理經驗,同濟軟體工程本科,復旦工程管理碩士,阿里雲認證雲服務資深架構師,上億營收AI產品業務負責人。

相關文章