分類演算法(1)-LR邏輯迴歸

tankII發表於2021-09-09

Logistics regression

Logistic regression (邏輯迴歸)是當前業界比較常用的機器學習方法,用於估計某種事物的可能性。之前在經典之作《數學之美》中也看到了它用於廣告預測,也就是根據某廣告被使用者點選的可能性,把最可能被使用者點選的廣告擺在使用者能看到的地方,然後叫他“你點我啊!”使用者點了,你就有錢收了。這就是為什麼我們的電腦現在廣告氾濫的原因了。萬物的發生都可以用可能性或者機率(Odds)來表達。“機率”指的是某事物發生的可能性與不發生的可能性的比值。

分類演算法是針對離散資料而言的,如果預測值是連續值,那此類學習任務就是迴歸。

 Logistic regression主要是二分類。透過利用一致的自變數來預測一個離散型因變數的值。 其預測的是一個處於0到1之間機率值,也就是這個樣本屬於正類的可能性是多少。


圖片描述

1. 假設方程

y=0或1表示負類或正類(二分類問題),x是m維的樣本特徵向量,σ是sigmoid/logistic函式,θ是迴歸係數(也就是x對應的權值),目標是擬合θ。

sigmoid fuction:

圖片描述

圖片描述

hypothesis function

2. 假設函式的形狀(假設函式何時將y預測為0,何時為1.)

決策邊界(並非資料集屬性 取決於假設函式的引數)線性、非線性

圖片描述

decision boundary


圖片描述

3.  如何擬合引數(使用資料集來確定引數取值)

圖片描述

how to choose θ

cost function(凸函式) 

在單弓形函式上使用梯度下降法

圖片描述

邏輯迴歸的cost function

4. 簡化代價函式和梯度下降

Cost(h(x),y)=-ylog(h(x))-(1-y)log(1-h(x))

圖片描述

用極大似然法得出

找出讓J(θ)取得最小值的引數θ

圖片描述

圖片描述

何時停止?

5. 高階最佳化

圖片描述

高階演算法

6. 多元分類

圖片描述


優點:計算代價不高,易於理解和實現 

缺點:容易欠擬合,分類精度可能不高 

適用資料型別:數值型和標稱型資料



作者:大鴨頭騙子
連結:


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/1795/viewspace-2817857/,如需轉載,請註明出處,否則將追究法律責任。

相關文章