2、從引數估計的角度理解邏輯迴歸

weixin_34290000發表於2017-12-31

以下內容純屬個人觀點,如有錯誤,歡迎批評指正

首先,我假設我有一堆樣本長成下面這個樣子:

9329129-6713ed05f6979592.png

現在,我假設的是我的標籤變數Y是服從0-1分佈的,因為我的標籤不是取0就是取1,只是我不知道取得0或者取得1的概率而已:

9329129-66f1d9feba8f19f6.png

那麼,從引數估計的角度來講,我需要做的就是得到這裡的θ的估計量。一個問題是使用什麼估計法呢?我們使用的是點估計法,然後使用的是極大似然估計,因為我們已經有了一組樣本的觀測值。當然,你也可以使用矩估計法,但是在這裡看似估計的僅僅是一個引數θ,但是實際上估計的是權重向量W,所以W有多少個就需要多少階矩,這個計算量太大。(也許你可以搞定~~~)

如果問題僅僅就是基於(1)標籤變數服從0-1分佈;(2)已知一組標籤變數的觀測值。然後就基於這組觀測值使用極大似然估計來得到θ的估計值,那就太簡單了,我的這些特徵也不需要了。問題是需要對於這些特徵向量(空間中的點)進行分類,如果脫離了特徵本身就沒有意義了。問題的關鍵是,我們這裡的θ其實是條件概率:

9329129-1d0299abcee78641.png

所以,這裡的θ就不單單是一個一元引數了,它應該是和我們的特徵有關係的,一個假設就是,事件的對數機率是特徵的線性函式

9329129-b170287c351b8981.png

也就是說,只要我們的X和Y是服從聯合分佈P(X,Y)那麼基於這個聯合分佈,我們可以說這個總體的分佈形式是這個樣子的:

9329129-2787ea2ce7b880b7.png

所以,概率密度函式的形式就變成了下面這個樣子:

9329129-6bc4cae89329eaba.png

那麼之後就可以使用極大似然估計結合梯度上升發來得到相應的W的估計值。

在得到了W的估計值以後,我們就可以依據前面的公式,基於每個輸入樣本來得到θ的值了:

9329129-0149d423d2049f21.png

現在面臨的問題就是你的臨界的θ設定為多少呢?就是說只要這個標籤是正例的概率大於多少你就給分為正例呢?上表中我們可能臨界值設定為θ = 0.6就可以使得我們的樣本中沒有錯誤的分類。如果θ臨界值設定為0.5的話那麼我們就會得到幾個錯誤的分類,所以這個就有了我們的ROC曲線。實際的問題中如何設定臨界值則需要根據實際情況來權衡。

相關文章