邏輯迴歸原理小結

劉建平Pinard發表於2016-11-04

    邏輯迴歸是一個分類演算法,它可以處理二元分類以及多元分類。雖然它名字裡面有“迴歸”兩個字,卻不是一個迴歸演算法。那為什麼有“迴歸”這個誤導性的詞呢?個人認為,雖然邏輯迴歸是分類模型,但是它的原理裡面卻殘留著迴歸模型的影子,本文對邏輯迴歸原理做一個總結。

1. 從線性迴歸到邏輯迴歸

    我們知道,線性迴歸的模型是求出輸出特徵向量Y和輸入樣本矩陣X之間的線性關係係數\(\theta\),滿足\(\mathbf{Y = X\theta}\)。此時我們的Y是連續的,所以是迴歸模型。如果我們想要Y是離散的話,怎麼辦呢?一個可以想到的辦法是,我們對於這個Y再做一次函式轉換,變為\(g(Y)\)。如果我們令\(g(Y)\)的值在某個實數區間的時候是類別A,在另一個實數區間的時候是類別B,以此類推,就得到了一個分類模型。如果結果的類別只有兩種,那麼就是一個二元分類模型了。邏輯迴歸的出發點就是從這來的。下面我們開始引入二元邏輯迴歸。

2. 二元邏輯迴歸的模型

    上一節我們提到對線性迴歸的結果做一個在函式g上的轉換,可以變化為邏輯迴歸。這個函式g在邏輯迴歸中我們一般取為sigmoid函式,形式如下:

    \(g(z) = \frac{1}{1+e^{-z}}\) 

    它有一個非常好的性質,即當z趨於正無窮時,\(g(z)\)趨於1,而當z趨於負無窮時,\(g(z)\)趨於0,這非常適合於我們的分類概率模型。另外,它還有一個很好的導數性質:

    \(g^{'}(z) = g(z)(1-g(z))\) 

    這個通過函式對\(g(z)\)求導很容易得到,後面我們會用到這個式子。

    如果我們令\(g(z)\)中的z為:\({z = x\theta}\),這樣就得到了二元邏輯迴歸模型的一般形式:

    \(h_{\theta}(x) = \frac{1}{1+e^{-x\theta}}\) 

    其中x為樣本輸入,\(h_{\theta}(x)\)為模型輸出,可以理解為某一分類的概率大小。而\(\theta\)為分類模型的要求出的模型引數。對於模型輸出\(h_{\theta}(x)\),我們讓它和我們的二元樣本輸出y(假設為0和1)有這樣的對應關係,如果\(h_{\theta}(x) >0.5\) ,即\(x\theta > 0\), 則y為1。如果\(h_{\theta}(x) < 0.5\),即\(x\theta < 0\), 則y為0。y=0.5是臨界情況,此時\(x\theta = 0\)為, 從邏輯迴歸模型本身無法確定分類。

    \(h_{\theta}(x)\)的值越小,而分類為0的的概率越高,反之,值越大的話分類為1的的概率越高。如果靠近臨界點,則分類準確率會下降。

    此處我們也可以將模型寫成矩陣模式:

    \(h_{\theta}(X) = \frac{1}{1+e^{-X\theta}}\) 

    其中\(h_{\theta}(X)\)為模型輸出,為 mx1的維度。X為樣本特徵矩陣,為mxn的維度。\(\theta\)為分類的模型係數,為nx1的向量。

    理解了二元分類迴歸的模型,接著我們就要看模型的損失函式了,我們的目標是極小化損失函式來得到對應的模型係數\(\theta\)。

3. 二元邏輯迴歸的損失函式

    回顧下線性迴歸的損失函式,由於線性迴歸是連續的,所以可以使用模型誤差的的平方和來定義損失函式。但是邏輯迴歸不是連續的,自然線性迴歸損失函式定義的經驗就用不上了。不過我們可以用最大似然法來推匯出我們的損失函式。

    我們知道,按照第二節二元邏輯迴歸的定義,假設我們的樣本輸出是0或者1兩類。那麼我們有:

    \(P(y=1|x,\theta ) = h_{\theta}(x)\)

    \(P(y=0|x,\theta ) = 1- h_{\theta}(x)\)

     把這兩個式子寫成一個式子,就是:

    \(P(y|x,\theta ) = h_{\theta}(x)^y(1-h_{\theta}(x))^{1-y}\)

    其中y的取值只能是0或者1。

    得到了y的概率分佈函式表示式,我們就可以用似然函式最大化來求解我們需要的模型係數\(\theta\)。

    為了方便求解,這裡我們用對數似然函式最大化,對數似然函式取反即為我們的損失函式\(J(\theta\))。其中:

    似然函式的代數表示式為:

    \(L(\theta) = \prod\limits_{i=1}^{m}(h_{\theta}(x^{(i)}))^{y^{(i)}}(1-h_{\theta}(x^{(i)}))^{1-y^{(i)}}\)

    其中m為樣本的個數。

    對似然函式對數化取反的表示式,即損失函式表示式為:

    \(J(\theta) = -lnL(\theta) = -\sum\limits_{i=1}^{m}(y^{(i)}log(h_{\theta}(x^{(i)}))+ (1-y^{(i)})log(1-h_{\theta}(x^{(i)})))\)

     損失函式用矩陣法表達更加簡潔:

    \(J(\theta) = -Y^T\bullet logh_{\theta}(X) - (E-Y)^T\bullet log(E-h_{\theta}(X))\)

    其中E為全1向量,\(\bullet\)為內積。

4. 二元邏輯迴歸的損失函式的優化方法

    對於二元邏輯迴歸的損失函式極小化,有比較多的方法,最常見的有梯度下降法,座標軸下降法,等牛頓法等。這裡推匯出梯度下降法中\(\theta\)每次迭代的公式。由於代數法推導比較的繁瑣,我習慣於用矩陣法來做損失函式的優化過程,這裡給出矩陣法推導二元邏輯迴歸梯度的過程。

    對於\(J(\theta) = -Y^T\bullet logh_{\theta}(X) - (E-Y)^T\bullet log(E-h_{\theta}(X))\),我們用\(J(\theta)\)對\(\theta\)向量求導可得:

    \(\frac{\partial}{\partial\theta}J(\theta) = X^T[\frac{1}{h_{\theta}(X)}\odot h_{\theta}(X)\odot (E-h_{\theta}(X))\odot (-Y)] + X^T[\frac{1}{E-h_{\theta}(X)}\odot h_{\theta}(X)\odot (E-h_{\theta}(X))\odot (E-Y)]\)

    這一步我們用到了向量求導的鏈式法則,和下面三個基礎求導公式的矩陣形式:

    \(\frac{\partial}{\partial x}logx = 1/x\)

    \(\frac{\partial}{\partial z}g(z) = g(z)(1-g(z))   (g(z)為sigmoid函式) \) 

    \(\frac{\partial x\theta}{\partial \theta} =  x\) 

    對於剛才的求導公式我們進行化簡可得:

    \(\frac{\partial}{\partial\theta}J(\theta) = X^T(h_{\theta}(X) - Y )\)

    從而在梯度下降法中每一步向量\(\theta\)的迭代公式如下:

    \(\theta = \theta - \alpha X^T(h_{\theta}(X) - Y )\)

    其中,\(\alpha\)為梯度下降法的步長。

    實踐中,我們一般不用操心優化方法,大部分機器學習庫都內建了各種邏輯迴歸的優化方法,不過了解至少一種優化方法還是有必要的。

 

5. 二元邏輯迴歸的正則化

    邏輯迴歸也會面臨過擬合問題,所以我們也要考慮正則化。常見的有L1正則化和L2正則化。

    邏輯迴歸的L1正則化的損失函式表示式如下,相比普通的邏輯迴歸損失函式,增加了L1的範數做作為懲罰,超引數\(\alpha\)作為懲罰係數,調節懲罰項的大小。

    二元邏輯迴歸的L1正則化損失函式表示式如下:

    \(J(\theta) = -Y^T\bullet logh_{\theta}(X) - (E-Y)^T\bullet log(E-h_{\theta}(X)) +\alpha ||\theta||_1\)

    其中\(||\theta||_1\)為\(\theta\)的L1範數。

    邏輯迴歸的L1正則化損失函式的優化方法常用的有座標軸下降法和最小角迴歸法。

 

    二元邏輯迴歸的L2正則化損失函式表示式如下:

    \(J(\theta) = -Y^T\bullet logh_{\theta}(X) - (E-Y)^T\bullet log(E-h_{\theta}(X)) + \frac{1}{2}\alpha||\theta||_2^2\)

    其中\(||\theta||_2\)為\(\theta\)的L2範數。

    邏輯迴歸的L2正則化損失函式的優化方法和普通的邏輯迴歸類似。

    

6. 二元邏輯迴歸的推廣:多元邏輯迴歸

    前面幾節我們的邏輯迴歸的模型和損失函式都侷限於二元邏輯迴歸,實際上二元邏輯迴歸的模型和損失函式很容易推廣到多元邏輯迴歸。比如總是認為某種型別為正值,其餘為0值,這種方法為最常用的one-vs-rest,簡稱OvR.

    另一種多元邏輯迴歸的方法是Many-vs-Many(MvM),它會選擇一部分類別的樣本和另一部分類別的樣本來做邏輯迴歸二分類。最常用的是One-Vs-One(OvO)。OvO是MvM的特例。每次我們選擇兩類樣本來做二元邏輯迴歸。

    這裡只介紹多元邏輯迴歸的softmax迴歸的一種特例推導:

    首先回顧下二元邏輯迴歸。

    \(P(y=1|x,\theta ) = h_{\theta}(x) =  \frac{1}{1+e^{-x\theta}} = \frac{e^{x\theta}}{1+e^{x\theta}}\)

    \(P(y=0|x,\theta ) = 1- h_{\theta}(x) = \frac{1}{1+e^{x\theta}}\)

    其中y只能取到0和1。則有:

    \(ln\frac{P(y=1|x,\theta )}{P(y=0|x,\theta)} = x\theta\)

    如果我們要推廣到多元邏輯迴歸,則模型要稍微做下擴充套件。

    我們假設是K元分類模型,即樣本輸出y的取值為1,2,。。。,K。

    根據二元邏輯迴歸的經驗,我們有:

    \(ln\frac{P(y=1|x,\theta )}{P(y=K|x,\theta)} = x\theta_1\)

    \(ln\frac{P(y=2|x,\theta )}{P(y=K|x,\theta)} = x\theta_2\) 

    ...

    \(ln\frac{P(y=K-1|x,\theta )}{P(y=K|x,\theta)} = x\theta_{K-1}\) 

    上面有K-1個方程。

    加上概率之和為1的方程如下:

    \(\sum\limits_{i=1}^{K}P(y=i|x,\theta ) = 1\)

    從而得到K個方程,裡面有K個邏輯迴歸的概率分佈。

    解出這個K元一次方程組,得到K元邏輯迴歸的概率分佈如下:

    \(P(y=k|x,\theta ) =  e^{x\theta_k} \bigg/ 1+\sum\limits_{t=1}^{K-1}e^{x\theta_t}\)  k = 1,2,...K-1

    \(P(y=K|x,\theta ) =  1 \bigg/ 1+\sum\limits_{t=1}^{K-1}e^{x\theta_t}\)

    多元邏輯迴歸的損失函式推導以及優化方法和二元邏輯迴歸類似,這裡就不累述。

7.小結

    邏輯迴歸尤其是二元邏輯迴歸是非常常見的模型,訓練速度很快,雖然使用起來沒有支援向量機(SVM)那麼佔主流,但是解決普通的分類問題是足夠了,訓練速度也比起SVM要快不少。如果你要理解機器學習分類演算法,那麼第一個應該學習的分類演算法個人覺得應該是邏輯迴歸。理解了邏輯迴歸,其他的分類演算法再學習起來應該沒有那麼難了。

 

 (歡迎轉載,轉載請註明出處。歡迎溝通交流: liujianping-ok@163.com) 

相關文章