機器學習筆記009 | 關於分類問題的預測

前面我們說過，對於監督學習，根據目標的是否連續，分為迴歸問題和分類問題。

之前我們學習了迴歸直線（linear regression），但是通過這樣的方式來解決分類問題，效果不怎麼好。

我們舉個例子：

圖中藍色圓圈表示良性腫瘤，紅色的叉表示惡性腫瘤。

我們判斷，當概率大於0.5的時候，那麼這些腫瘤就是惡性的腫瘤，概率小與0.5的時候，這些腫瘤就是良性的腫瘤。

如果採用線性迴歸進行預測，得到的結果是這樣的：

圖中橙色的直線是預測的迴歸直線。

h_θ(x) ≥ 0.5 ，表明是惡性的，也就是黃色虛線右邊。

但是如果出現了更大的腫瘤，就會出現問題，如圖：

資料不一樣，迴歸直線就發生了變化，然後判斷就不準確了。

迴歸方程就會把綠色虛線的左邊的腫瘤會被判定為良性腫瘤，也就是將之前判斷為惡性的腫瘤判斷為良性。

對於分類問題，一般只有少數的結果，甚至常常只有“是”和“否”兩種結果，或者說是1和0兩種結果，就像上面提到腫瘤是否惡性的例子一樣。

對於這樣的問題，採用線性迴歸的來描述我們的假設，其實是不合適的。

那麼為了解決分類問題，我們應該用什麼函式來表達我們的假設呢呢？

就是我們下面要說到的邏輯迴歸（Logistic Regression）。

我們想要的結果，其實是一個概率的預測，如果概率大於或者等於0.5，那麼就認定為“是”，概率小於0.5，那麼就認定為“否”。

表達在預測函式上，我們想要的就是：

0 ≤ h_θ(x) ≤ 1

原來預測函式是這樣的：h_θ(x) = θ^Tx，其中θ和x都是n + 1 維度的向量。

現在我們對函式進行了一個調整：

g(z)就是邏輯函式，也是邏輯迴歸命名的由來。

以下是邏輯函式g(z)繪畫出的影象：

邏輯函式

可以看到，曲線取值的區間是在 ( 0 , 1 )，最小值無限接近於 0，最大值無限接近於 1 。

曲線經過座標 ( 0 , 0.5 )，也就是概率為 0.5 的位置。

因為我們的想要得到的預測結果，是一個概率，然後更具概率對結果進行判定。

我們把 h_θ(x) = P(y=1|x;θ) 看作判斷為“是”的預測，其結果在( 0 , 1 ) 之間的，那麼判斷為“否”的概率就是 P(y=0|x;θ) = 1 − P(y=1|x;θ) 。

判斷“否”的概率正好是剩餘的部分，不是麼？

例如今天天氣預報說，有70%的機率會下雨，那麼換一個角度來看就是說有30%的機率就不會下雨。

h_θ(x) ≥ 0.5 → y = 1
h_θ(x) < 0.5 → y = 0

通過這個邏輯函式g(z)的圖片我們可以得到：

當 z ≥ 0 的時候，g(z) ≥ 0.5。

也就是說：

θ^Tx ≥ 0 ⇒ h_θ(x) = g(θ^Tx) ≥ 0.5 ⇒ y = 1
θ^Tx < 0 ⇒ h_θ(x) = g(θ^Tx) < 0.5 ⇒ y = 0

θ^Tx = 0 將兩者劃分開來的曲線就是我們的決策邊界（Decision Boundary）。

例如我們有一組兩個特徵的資料，預測函式就是 h_θ(x) = g(θ^Tx) = g(θ₀ + θ₁x₁ + θ₂x₂) 。

對於θ₀ + θ₁x₁ + θ₂x₂ = 0 ，假如我們有 θ₀ = -3 ，θ₁ = 1 ，θ₂ = 1，那麼就可以得到：

x₁ + x₂ = 3

就是下圖中黃色的直線：

這條曲線就是我們的決策邊界。

因為x₁ + x₂ ≥ 3 ⇒ hθ(x) ≥ 0.5 ⇒ y = 1，所以在直線右邊的腫瘤被判斷為惡性，在直線左邊的腫瘤被判定為良性。

當然，資料的落點可能是這樣的：

那麼對應的決策邊界就是以1為半徑，以座標中心為圓心的圓：

而這樣圖形的公式是：

所以 z = θ^Tx 並非一定要是線性的，也可以是多項式的，如：

所以就算出現各種怪異的形狀也不足為奇，只要形狀能夠擬合我們的資料，就可以了。

文章轉載自公眾號：止一之路

機器學習筆記009 | 關於分類問題的預測

相關文章