[DataAnalysis]機器學習演算法——線性模型(邏輯迴歸+LDA)

TOMOCAT發表於2018-08-26

一、基本形式

f(x)=w_1x_1+w_2x_2+...w_dx_d+b

二、線性迴歸

給定資料集D={(x_1,y_1),(x_2,y_2),...(x_m,y_m)},線性迴歸即試圖學得一個線性模型以儘可能準確地預測實值輸出標記。

1、模型

f(x_i)=wx_i+b

2、引數估計方法

(w^*,b*)=argmin\sum (f(x_i)-y_i)^2,通過偏導等於0得到最小二乘估計

3、變形

(1)對數線性迴歸

lny=w^{T}x

(2)廣義線性模型

y=g^{-1}(w^Tx+b),其中g(x)是單調可微函式

三、對數機率迴歸

1、單位躍階函式和對數機率函式

單位階躍函式:

y=\left\{\begin{matrix} 0, &z<0 \\ 0.5,&z=0 \\ 1,&z>0 \end{matrix}\right.

2、對數機率函式

y=\frac{1}{1+e^{-z}}

注:邏輯迴歸的原理就是把線性迴歸得到的擬合值投射到對數機率函式上,從而保證結果在0~1之間

y=\frac{1}{1+e^{w^Tx+b}}

ln\frac{y}{1-y}=w^Tx+b

其中邏輯迴歸的引數估計方法詳見博文的邏輯迴歸模型相關內容。

四、線性判別分析(Linear Discriminant Analysis,LDA),也被稱為fisher判別分析

1、思想:給定訓練樣例集,設法將樣例投影到一條直線上。使得同類樣例的投影點儘可能接近、異類樣例的投影點儘可能遠離。在對新樣本進行分類時,將其投影到同樣的直線上,再根據投影點的位置確定新樣本的類別。

2、數學推導:

給定資料集D={(x_i,y_i),y_i\in (0,1)}。令X_i,\mu _i,\Sigma _i分別表示第i類示例的集合、均值向量和協方差矩陣。如果將所有點投影在直線w上,則兩類樣本的中心在直線上的投影分別為w^T\mu_0w^T\mu_1;如果將所有點投影在直線上,那麼兩類樣本的協方差分為是w^T\Sigma _0ww^T\Sigma _1w。由於直線是一維空間,從而w^T\mu_0w^T\mu_1w^T\Sigma _0ww^T\Sigma _1w都是實數。

w^T\Sigma _0w+w^T\Sigma _1w儘可能小,||w^T\mu_0-w^T\mu_1||^2儘可能大。

3、擴充方向:

(1)將LDA推廣到多分類任務

(2)將樣本投影到d'維空間而不是一條直線,則d'通常遠小於資料原有的屬性數d。於是可通過這個投影來減小樣本點的維數,LDA可作為一種典型的監督降維技術。​​​​​​​

相關文章