機器學習筆記009 | 關於分類問題的預測

weixin_33709219發表於2017-09-14
3985559-2e12cddb6fe4f81c.png

前面我們說過,對於監督學習,根據目標的是否連續,分為迴歸問題和分類問題。

之前我們學習了迴歸直線(linear regression),但是通過這樣的方式來解決分類問題,效果不怎麼好。

我們舉個例子:

3985559-0a2786dffb505dda.png

圖中藍色圓圈表示良性腫瘤,紅色的叉表示惡性腫瘤。

我們判斷,當概率大於0.5的時候,那麼這些腫瘤就是惡性的腫瘤,概率小與0.5的時候,這些腫瘤就是良性的腫瘤。

如果採用線性迴歸進行預測,得到的結果是這樣的:

3985559-120ea98b4364264c.png

圖中橙色的直線是預測的迴歸直線。

hθ(x) ≥ 0.5 ,表明是惡性的,也就是黃色虛線右邊。

但是如果出現了更大的腫瘤,就會出現問題,如圖:

3985559-641266e88404177d.png

資料不一樣,迴歸直線就發生了變化,然後判斷就不準確了。

迴歸方程就會把綠色虛線的左邊的腫瘤會被判定為良性腫瘤,也就是將之前判斷為惡性的腫瘤判斷為良性。

對於分類問題,一般只有少數的結果,甚至常常只有“是”和“否”兩種結果,或者說是1和0兩種結果,就像上面提到腫瘤是否惡性的例子一樣。

對於這樣的問題,採用線性迴歸的來描述我們的假設,其實是不合適的。

那麼為了解決分類問題,我們應該用什麼函式來表達我們的假設呢呢?

就是我們下面要說到的邏輯迴歸(Logistic Regression)

我們想要的結果,其實是一個概率的預測,如果概率大於或者等於0.5,那麼就認定為“是”,概率小於0.5,那麼就認定為“否”。

表達在預測函式上,我們想要的就是:

0 ≤ hθ(x) ≤ 1

原來預測函式是這樣的:hθ(x) = θTx,其中θ和x都是n + 1 維度的向量。

現在我們對函式進行了一個調整:

3985559-c26e15616a3a2d37.png

g(z)就是邏輯函式,也是邏輯迴歸命名的由來。

以下是邏輯函式g(z)繪畫出的影象:

3985559-8103da4c3bb8ac25.png
邏輯函式

可以看到,曲線取值的區間是在 ( 0 , 1 ),最小值無限接近於 0,最大值無限接近於 1 。

曲線經過座標 ( 0 , 0.5 ),也就是概率為 0.5 的位置。

因為我們的想要得到的預測結果,是一個概率,然後更具概率對結果進行判定。

我們把 hθ(x) = P(y=1|x;θ) 看作判斷為“是”的預測,其結果在( 0 , 1 ) 之間的,那麼判斷為“否”的概率就是 P(y=0|x;θ) = 1 − P(y=1|x;θ) 。

判斷“否”的概率正好是剩餘的部分,不是麼?

例如今天天氣預報說,有70%的機率會下雨,那麼換一個角度來看就是說有30%的機率就不會下雨。

hθ(x) ≥ 0.5 → y = 1
hθ(x) < 0.5 → y = 0

通過這個邏輯函式g(z)的圖片我們可以得到:

當 z ≥ 0 的時候,g(z) ≥ 0.5。

也就是說:

θTx ≥ 0 ⇒ hθ(x) = g(θTx) ≥ 0.5 ⇒ y = 1
θTx < 0 ⇒ hθ(x) = g(θTx) < 0.5 ⇒ y = 0

θTx = 0 將兩者劃分開來的曲線就是我們的決策邊界(Decision Boundary)

例如我們有一組兩個特徵的資料,預測函式就是 hθ(x) = g(θTx) = g(θ0 + θ1x1 + θ2x2) 。

對於θ0 + θ1x1 + θ2x2 = 0 ,假如我們有 θ0 = -3 ,θ1 = 1 ,θ2 = 1,那麼就可以得到:

x1 + x2 = 3

就是下圖中黃色的直線:

3985559-8b3420d07ece843e.png

這條曲線就是我們的決策邊界。

因為x1 + x2 ≥ 3 ⇒ hθ(x) ≥ 0.5 ⇒ y = 1,所以在直線右邊的腫瘤被判斷為惡性,在直線左邊的腫瘤被判定為良性。

當然,資料的落點可能是這樣的:

3985559-b63efdff1ee2539d.png

那麼對應的決策邊界就是以1為半徑,以座標中心為圓心的圓:

3985559-379b4bb7ba2f66fb.png

而這樣圖形的公式是:

3985559-5e6e7a715c908f8e.png

所以 z = θTx 並非一定要是線性的,也可以是多項式的,如:

3985559-0f89898235218961.png

所以就算出現各種怪異的形狀也不足為奇,只要形狀能夠擬合我們的資料,就可以了。

文章轉載自公眾號:止一之路

3985559-42ba5c36d4922941

相關文章