2、從引數估計的角度理解邏輯迴歸
以下內容純屬個人觀點,如有錯誤,歡迎批評指正。
首先,我假設我有一堆樣本長成下面這個樣子:

現在,我假設的是我的標籤變數Y是服從0-1分佈的,因為我的標籤不是取0就是取1,只是我不知道取得0或者取得1的概率而已:

那麼,從引數估計的角度來講,我需要做的就是得到這裡的θ的估計量。一個問題是使用什麼估計法呢?我們使用的是點估計法,然後使用的是極大似然估計,因為我們已經有了一組樣本的觀測值。當然,你也可以使用矩估計法,但是在這裡看似估計的僅僅是一個引數θ,但是實際上估計的是權重向量W,所以W有多少個就需要多少階矩,這個計算量太大。(也許你可以搞定~~~)
如果問題僅僅就是基於(1)標籤變數服從0-1分佈;(2)已知一組標籤變數的觀測值。然後就基於這組觀測值使用極大似然估計來得到θ的估計值,那就太簡單了,我的這些特徵也不需要了。問題是需要對於這些特徵向量(空間中的點)進行分類,如果脫離了特徵本身就沒有意義了。問題的關鍵是,我們這裡的θ其實是條件概率:

所以,這裡的θ就不單單是一個一元引數了,它應該是和我們的特徵有關係的,一個假設就是,事件的對數機率是特徵的線性函式。

也就是說,只要我們的X和Y是服從聯合分佈P(X,Y)那麼基於這個聯合分佈,我們可以說這個總體的分佈形式是這個樣子的:

所以,概率密度函式的形式就變成了下面這個樣子:

那麼之後就可以使用極大似然估計結合梯度上升發來得到相應的W的估計值。
在得到了W的估計值以後,我們就可以依據前面的公式,基於每個輸入樣本來得到θ的值了:

現在面臨的問題就是你的臨界的θ設定為多少呢?就是說只要這個標籤是正例的概率大於多少你就給分為正例呢?上表中我們可能臨界值設定為θ = 0.6就可以使得我們的樣本中沒有錯誤的分類。如果θ臨界值設定為0.5的話那麼我們就會得到幾個錯誤的分類,所以這個就有了我們的ROC曲線。實際的問題中如何設定臨界值則需要根據實際情況來權衡。
相關文章
- 【小白學AI】線性迴歸與邏輯迴歸(似然引數估計)AI邏輯迴歸
- 第二週【任務2】貝葉斯估計,估計、偏差和方差,邏輯迴歸邏輯迴歸
- 邏輯迴歸邏輯迴歸
- Python邏輯迴歸Python邏輯迴歸
- 邏輯迴歸模型邏輯迴歸模型
- 線性迴歸與邏輯迴歸邏輯迴歸
- 邏輯迴歸中的係數的意義邏輯迴歸
- 從零開始學習邏輯迴歸邏輯迴歸
- 對數機率迴歸(邏輯迴歸)原理與Python實現邏輯迴歸Python
- 邏輯迴歸演算法邏輯迴歸演算法
- 對比線性迴歸、邏輯迴歸和SVM邏輯迴歸
- 【機器學習】求解邏輯迴歸引數(三種方法程式碼實現)機器學習邏輯迴歸
- 機器學習 | 線性迴歸與邏輯迴歸機器學習邏輯迴歸
- 邏輯迴歸 損失函式邏輯迴歸函式
- 2.3 邏輯迴歸演算法邏輯迴歸演算法
- 4.邏輯迴歸(Logistic Regression)邏輯迴歸
- Tensorflow教程(前三)——邏輯迴歸邏輯迴歸
- 機器學習:邏輯迴歸機器學習邏輯迴歸
- 資料探勘從入門到放棄(一):線性迴歸和邏輯迴歸邏輯迴歸
- 從零開始學機器學習——邏輯迴歸機器學習邏輯迴歸
- 一文徹底理解邏輯迴歸:從公式推導到程式碼實現邏輯迴歸公式
- 邏輯迴歸:使用Python的簡化方法邏輯迴歸Python
- 機器學習之邏輯迴歸:計算概率機器學習邏輯迴歸
- 從OC角度思考OKR的底層邏輯OKR
- Sklearn-LogisticRegression邏輯迴歸(有處理樣本不均衡時設定引數的方法)邏輯迴歸
- 從零開始利用Python建立邏輯迴歸分類模型Python邏輯迴歸模型
- 邏輯迴歸為什麼使用sigmod邏輯迴歸
- 機器學習之邏輯迴歸機器學習邏輯迴歸
- 機器學習整理(邏輯迴歸)機器學習邏輯迴歸
- 2.3邏輯迴歸損失函式邏輯迴歸函式
- 機器學習之邏輯迴歸:計算機率機器學習邏輯迴歸計算機
- 邏輯迴歸(Logistic Regression)原理及推導邏輯迴歸
- 邏輯迴歸損失函式(cost function)邏輯迴歸函式Function
- 邏輯迴歸:損失函式與梯度下降邏輯迴歸函式梯度
- 實驗11-使用keras完成邏輯迴歸Keras邏輯迴歸
- 人工智慧-機器學習-邏輯迴歸人工智慧機器學習邏輯迴歸
- COMP 330正則化邏輯迴歸分類邏輯迴歸
- 三、邏輯迴歸logistic regression——分類問題邏輯迴歸
- 邏輯迴歸演算法推理與實現邏輯迴歸演算法