2、從引數估計的角度理解邏輯迴歸
以下內容純屬個人觀點,如有錯誤,歡迎批評指正。
首先,我假設我有一堆樣本長成下面這個樣子:
現在,我假設的是我的標籤變數Y是服從0-1分佈的,因為我的標籤不是取0就是取1,只是我不知道取得0或者取得1的概率而已:
那麼,從引數估計的角度來講,我需要做的就是得到這裡的θ的估計量。一個問題是使用什麼估計法呢?我們使用的是點估計法,然後使用的是極大似然估計,因為我們已經有了一組樣本的觀測值。當然,你也可以使用矩估計法,但是在這裡看似估計的僅僅是一個引數θ,但是實際上估計的是權重向量W,所以W有多少個就需要多少階矩,這個計算量太大。(也許你可以搞定~~~)
如果問題僅僅就是基於(1)標籤變數服從0-1分佈;(2)已知一組標籤變數的觀測值。然後就基於這組觀測值使用極大似然估計來得到θ的估計值,那就太簡單了,我的這些特徵也不需要了。問題是需要對於這些特徵向量(空間中的點)進行分類,如果脫離了特徵本身就沒有意義了。問題的關鍵是,我們這裡的θ其實是條件概率:
所以,這裡的θ就不單單是一個一元引數了,它應該是和我們的特徵有關係的,一個假設就是,事件的對數機率是特徵的線性函式。
也就是說,只要我們的X和Y是服從聯合分佈P(X,Y)那麼基於這個聯合分佈,我們可以說這個總體的分佈形式是這個樣子的:
所以,概率密度函式的形式就變成了下面這個樣子:
那麼之後就可以使用極大似然估計結合梯度上升發來得到相應的W的估計值。
在得到了W的估計值以後,我們就可以依據前面的公式,基於每個輸入樣本來得到θ的值了:
現在面臨的問題就是你的臨界的θ設定為多少呢?就是說只要這個標籤是正例的概率大於多少你就給分為正例呢?上表中我們可能臨界值設定為θ = 0.6就可以使得我們的樣本中沒有錯誤的分類。如果θ臨界值設定為0.5的話那麼我們就會得到幾個錯誤的分類,所以這個就有了我們的ROC曲線。實際的問題中如何設定臨界值則需要根據實際情況來權衡。
相關文章
- 【小白學AI】線性迴歸與邏輯迴歸(似然引數估計)AI邏輯迴歸
- 第二週【任務2】貝葉斯估計,估計、偏差和方差,邏輯迴歸邏輯迴歸
- 邏輯迴歸模型邏輯迴歸模型
- 從零開始學習邏輯迴歸邏輯迴歸
- 從零開始學機器學習——邏輯迴歸機器學習邏輯迴歸
- 【機器學習】求解邏輯迴歸引數(三種方法程式碼實現)機器學習邏輯迴歸
- 機器學習之邏輯迴歸:計算概率機器學習邏輯迴歸
- 機器學習 | 線性迴歸與邏輯迴歸機器學習邏輯迴歸
- Python邏輯迴歸Python邏輯迴歸
- 機器學習之邏輯迴歸機器學習邏輯迴歸
- 機器學習整理(邏輯迴歸)機器學習邏輯迴歸
- 淺談邏輯迴歸邏輯迴歸
- 【機器學習】---邏輯迴歸從初識到應用機器學習邏輯迴歸
- 對數機率迴歸(邏輯迴歸)原理與Python實現邏輯迴歸Python
- 機器學習之邏輯迴歸:計算機率機器學習邏輯迴歸計算機
- 邏輯迴歸演算法邏輯迴歸演算法
- 邏輯迴歸原理小結邏輯迴歸
- 2.3 邏輯迴歸演算法邏輯迴歸演算法
- 邏輯迴歸 損失函式邏輯迴歸函式
- 人工智慧-機器學習-邏輯迴歸人工智慧機器學習邏輯迴歸
- 資料探勘從入門到放棄(一):線性迴歸和邏輯迴歸邏輯迴歸
- 一文徹底理解邏輯迴歸:從公式推導到程式碼實現邏輯迴歸公式
- 從OC角度思考OKR的底層邏輯OKR
- 機器學習中的邏輯迴歸模型簡介機器學習邏輯迴歸模型
- 機器學習-邏輯迴歸:從技術原理到案例實戰機器學習邏輯迴歸
- 機器學習之邏輯迴歸:模型訓練機器學習邏輯迴歸模型
- 【機器學習】邏輯迴歸過程推導機器學習邏輯迴歸
- 機器學習筆記-多類邏輯迴歸機器學習筆記邏輯迴歸
- 2.3邏輯迴歸損失函式邏輯迴歸函式
- 【機器學習基礎】邏輯迴歸——LogisticRegression機器學習邏輯迴歸
- Tensorflow教程(前三)——邏輯迴歸邏輯迴歸
- Spark LogisticRegression 邏輯迴歸之建模Spark邏輯迴歸
- Re:從零開始的機器學習 - Machine Learning(二) 邏輯迴歸LR機器學習Mac邏輯迴歸
- 機器學習_最小二乘法,線性迴歸與邏輯迴歸機器學習邏輯迴歸
- 邏輯迴歸:使用Python的簡化方法邏輯迴歸Python
- Sklearn-LogisticRegression邏輯迴歸(有處理樣本不均衡時設定引數的方法)邏輯迴歸
- 從零開始利用Python建立邏輯迴歸分類模型Python邏輯迴歸模型
- 機器學習之使用Python完成邏輯迴歸機器學習Python邏輯迴歸