從零開始利用Python建立邏輯迴歸分類模型

人工智慧頻道發表於2018-10-26

Python邏輯迴歸模型

假設申請人向你提供成績，你根據成績對其進行分類，目標是根據分數將申請人分為兩類，如果申請人可以進入大學，則分為1級，如果申請人不能被錄取，則分為0級。使用線性迴歸可以解決這個問題嗎？讓我們一起來看看。

注意：閱讀本文的前提是瞭解線性迴歸！

什麼是邏輯迴歸？
資料集視覺化
假設和成本函式
從頭開始訓練模型
模型評估
Scikit-learn實現

什麼是邏輯迴歸？

回想一下線性迴歸，它被用於確定一個連續因變數的值。邏輯迴歸通常用於分類目的。與線性迴歸不同，因變數只能採用有限數量的值，即因變數是分類的。當可能結果的數量只有兩個時，它被稱為二元邏輯迴歸。

讓我們看看邏輯迴歸如何被用於分類任務。

線上性迴歸中，輸出是輸入的加權和。邏輯迴歸是廣義線性迴歸，在某種意義上，我們不直接輸出輸入的加權和，但我們通過一個函式來傳遞它，該函式可以對映0到1之間的任何實數值。

如果我們將輸入的加權和作為輸出，就像我們線上性迴歸中做的那樣，那麼該值可以大於1，但我們想要一個介於0和1之間的值。這也是為什麼線性迴歸不能用於分類任務的原因。

從下圖可以看出，線性迴歸的輸出通過一個啟用函式傳遞，該函式可以對映0到1之間的任何實數值。

從零開始利用Python建立邏輯迴歸分類模型

所使用的啟用函式稱為sigmoid函式。sigmoid函式的曲線如下圖所示

從零開始利用Python建立邏輯迴歸分類模型

我們可以看到sigmoid函式的值總是介於0和1之間。在X = 0時，該值恰好為0.5。我們可以使用0.5作為概率閾值來確定類。如果概率大於0.5，我們將其分類為Class-1（Y = 1）或者歸類為Class-0（Y = 0）。

在我們構建模型之前，讓我們看一下邏輯迴歸所做的假設

因變數必須是絕對的
自變數（特徵）必須是獨立的（以避免多重共線性）

資料集

本文中使用的資料來自吳恩達在Coursera上的機器學習課程。資料可以從這裡下載。（https://www.coursera.org/learn/machine-learning）該資料包括100名申請人的兩次考試分數。目標值採用二進位制值1,0。1表示申請人被大學錄取，0表示申請人未被錄取。它目標是建立一個分類器，可以預測申請是否將被大學錄取。

讓我們使用read_csv函式將資料載入到pandas Dataframe中。我們還將資料分為錄取的和未錄取的，以使資料視覺化。

從零開始利用Python建立邏輯迴歸分類模型

現在我們已經清楚地瞭解了問題和資料，讓我們繼續構建我們的模型。

假設和成本函式

到目前為止，我們已經瞭解瞭如何使用邏輯迴歸將例項分類到不同的類中。在本節中，我們將定義假設和成本函式。

線性迴歸模型可以用等式表示。

從零開始利用Python建立邏輯迴歸分類模型

然後，我們將sigmoid函式應用於線性迴歸的輸出

從零開始利用Python建立邏輯迴歸分類模型

sigmoid函式表示為，

從零開始利用Python建立邏輯迴歸分類模型

然後邏輯迴歸的假設為，

從零開始利用Python建立邏輯迴歸分類模型

如果輸入的加權和大於零，則預測的類為1，反之亦然。因此，通過將輸入的加權和設定為0，可以找到將兩個類分開的決策邊界。

成本函式

與線性迴歸一樣，我們將為模型定義成本函式，目標是最小化成本。

單個訓練示例的成本函式可以通過以下方式給出：

從零開始利用Python建立邏輯迴歸分類模型

成本函式直覺

如果實際的類是1並且模型預測為0，我們應該懲罰它，反之亦然。從下圖中可以看出，對於h（x）接近1的情況-log（h（x）），成本為0，當h（x）接近0時，成本為無窮大（即我們對模型進行嚴重懲罰）。類似地，對於繪圖-log（1-h（x）），當實際值為0並且模型預測為0時，成本為0並且當h（x）接近1時成本變為無窮大。

從零開始利用Python建立邏輯迴歸分類模型