機器學習實戰之Logistic迴歸

技術小能手發表於2018-06-25

本系列教程特點:

d47e62d2b349aca45e42305ed6714efbe5ed61d9基於《機器學習實戰》
d47e62d2b349aca45e42305ed6714efbe5ed61d9儘量避免講太多數學公式,通過簡單直白的方式講解各演算法的原理
d47e62d2b349aca45e42305ed6714efbe5ed61d9對於演算法實現的程式碼進行詳細講解

哪些讀者可以食用:

d47e62d2b349aca45e42305ed6714efbe5ed61d9瞭解機器學習的基本術語
d47e62d2b349aca45e42305ed6714efbe5ed61d9會Python語言

d47e62d2b349aca45e42305ed6714efbe5ed61d9會numpy和pandas庫的使用

寫在前面

Logistic迴歸涉及到高等數學,線性代數,概率論,優化問題。本文儘量以最簡單易懂的敘述方式,以少講公式原理,多講形象化案例為原則,給讀者講懂Logistic迴歸。如對數學公式過敏,引發不適,後果自負。

Logistic迴歸原理與推導

Logistic迴歸中雖然有迴歸的字樣,但該演算法是一個分類演算法,如圖所示,有兩類資料(紅點和綠點)分佈如下,如果需要對兩類資料進行分類,我們可以通過一條直線進行劃分(w0 * x0 + w1 * x1+w2 * x2)。當新的樣本(x1,x2)需要預測時,帶入直線函式中,函式值大於0,則為綠色樣本(正樣本),否則為紅樣本(負樣本)。 推廣到高維空間中,我們需要得到一個超平面(在二維是直線,在三維是平面,在n維是n-1的超平面)切分我們的樣本資料,實際上也就是求該超平面的W引數,這很類似於迴歸,所以取名為Logistic迴歸。

35a5367fc191073213bc9d98571855ecf99ece69

sigmoid函式

當然,我們不直接使用z函式,我們需要把z值轉換到區間[0-1]之間,轉換的z值就是判斷新樣本屬於正樣本的概率大小。我們使用sigmoid函式完成這個轉換過程,公式如下。通過觀察sigmoid函式圖,如圖所示,當z值大於0時,σ值大於0.5,當z值小於0時,σ值小於於0.5。利用sigmoid函式,使得Logistic迴歸本質上是一個基於條件概率的判別模型。

09ea1a46968957ab886d91791ddbead04f613142

目標函式

其實,我們現在就是求W,如何求W呢,我們先看下圖,我們都能看出第二個圖的直線切分的最好,換句話說,能讓這些樣本點離直線越遠越好,這樣對於新樣本的到來,也具有很好的劃分,那如何用公式表示並計算這個目標函式呢?

bdef169943a4d23959cff8300f3fa4f50cb7adcd

我們把sigmoid公式應用到z函式中:

eb2e55f9f680c8cb142c452aa7ec28a59ab2f6b2

通過條件概率可推出下面公式,對公式進行整合為一個,見下。

5102687f807aa0a149566909689b96de27bcf94e

假定樣本與樣本之間相互獨立,那麼整個樣本集生成的概率即為所有樣本生成概率的乘積:

26cb37408ea264bcd8e17ef7aeb5e069685f266d

這個公式過於複雜,不太容易求導,這裡通過log轉換:

7ecb3c69fc635aa36d163996c070724deb3f21d4

這時就需要這個目標函式的值最大,以此求出θ。

梯度上升法

在介紹梯度上升法之前,我們看一箇中學知識:求下面函式在x等於多少時,取最大值。

997bcf4154a5906e7c4fc62812804c9b04a94555

函式圖:

97b7f646ac7251cfaed8c44afca91572343848cb

解:求f(x)的導數:2x,令其為0,求得x=0時,取最大值為0。但在函式複雜時,求出導數也很難計算函式的極值,這時就需要使用梯度上升法,通過迭代,一步步逼近極值,公式如下,我們順著導數的方向(梯度)一步步逼近。

e980bf63705ddcf06284f700bbdeeef8cb864c25

利用梯度演算法計算該函式的x值:


def f(x_old):


return -2*x_old



def cal():

x_new = -6


x_old = 0
eps = 0.01

while abs(x_new-x_old)>presision:


presision = 0.00001
x_old=x_new

-0.0004892181072978443


x_new=x_old+eps*f(x_old)
return x_new



目標函式求解

這裡,我們對函式求偏導,得到迭代公式如下:

f4a97b4a97fbe7bb818252c2c777d884e3a548e0

Logistic迴歸實踐

資料情況

讀入資料,並繪圖顯示:


def loadDataSet():


dataMat = [];labelMat = []


fr = open(`資料/Logistic/TestSet.txt`)


for line in fr.readlines():

dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])


lineArr = line.strip().split()

return dataMat, labelMat


labelMat.append(int(lineArr[2]))


010bab3fea81526f6287111aa7c22bcd9b2949b9
訓練演算法

利用梯度迭代公式,計算W:


def sigmoid(inX):


return 1.0/(1 + np.exp(-inX))


def gradAscent(dataMatIn, labelMatIn):


dataMatrix = np.mat(dataMatIn)

labelMat = np.mat(labelMatIn).transpose()


m,n = np.shape(dataMatrix)
alpha = 0.001
maxCycles = 500

h = sigmoid(dataMatrix * weights)


weights = np.ones((n,1))
for k in range(maxCycles):
error = labelMat - h

return weights


weights = weights + alpha * dataMatrix.transpose() * error


通過計算的weights繪圖,檢視分類結果:

18b9e2df9135a435347e939119d3743ead3a3a02

演算法優缺點

  • 優點:易於理解和計算

  • 缺點:精度不高



原文釋出時間為:2018-06-23
本文作者:羅羅攀
本文來自雲棲社群合作伙伴“Python愛好者社群”,瞭解相關資訊可以關注“Python愛好者社群”。


相關文章