周志華西瓜書《機器學習》第三章線性模型

Yolo_1996發表於2018-12-09

又好像很久更新了,但這幾天我都有在學習哦~。一位同學和我說感覺我的筆記很多是對書本原文的再現,缺少自己的思考和重點提煉。我反思了一下好像真的是這樣的呢,這樣子寫似乎的確是和原文沒有多大的區別(而且敲那麼多字非常的累)。
所以從這篇筆記開始我會挑選書中的重點來記錄啦,對於個別比較難理解的公式也會單獨拿出來推導,不再把時間花在重複勞動上。
在寫文章方面我只是一個小白,希望大家多多包涵。

3.1基本形式

對於一個物體,線性模型通過學得各個屬性的線性組合來對其進行預測:
f(x)=w1x1+w2x2+w3x3+...+wdxd+bf\left ( x \right )=w_{1}x_{1}+w_{2}x_{2}+w_{3}x_{3}+...+w_{d}x_{d}+b
上式可以用向量形式f(x)=wTx+bf\left ( x \right )=w^{T}x+b來進行簡單表示。

當我們學習得到w=(w1;w2;w3...;wd;)w=\left ( w_{1}; w_{2}; w_{3}...; w_{d};\right )bb之後便可以將模型確定下來。

  • 線性模型的應用範圍比較有限,但我們可以在這幾個基礎上通過層級結構或高維對映得到功能更為強大的非線性模型。
  • 線上性模型中,ww直觀表達了各屬性在預測中的重要性,因此線性模型有很好的可解釋性(comprehensibility) 。

3.2 線性迴歸

我們可以使用"線性迴歸" (linear regression)來學得一個模型從而對預測值做出準確的預測輸出標記。

線上性迴歸中,我們試圖學得:f(x)=wTx+byif\left ( x \right )=w^{T}x+b\cong y_{i}。在這裡我們用均方誤差來進行效能度量,直接讓均方誤差最小化便可求得結果。即:
在這裡插入圖片描述

我們求解wwbbE(w,b)=i=1m(yiwxib)2E_{\left ( w,b \right )}=\sum_{i=1}^{m}\left ( y_{i}-wx_{i}-b \right )^{2}實現最小值,這個過程可以通過對wwbb求導來實現:
在這裡插入圖片描述
讓兩者分別為0便可以求得wwbb的最優解:
在這裡插入圖片描述
在這裡插入圖片描述

對於有多個屬性的情況,我們可以用多元線性迴歸來實現問題的求解,將資料集用一個矩陣X來進行表示:
在這裡插入圖片描述
資料集的標記我們也可以用向量形式y=(y1;y2;...;ym;)y=\left ( y_{1}; y_{2};...;y_{m};\right )來表示,從而可以得到和單屬性相似的結果:
在這裡插入圖片描述

在上文部分,我們實現了單屬性和多屬性的線性迴歸推導,但在我們的實際生活中,線性迴歸的應用場景並不是那麼常見,我們可以通過加一層對映來實現對y“衍生物”的逼近。

xxyy的實際對映為指數函式,我們令y=lnyy^{`}=lny,那麼x到yy^{`}的對映就變成了線性函式,我們可以繼續用剛才講過的那一部分知識來分析問題。得到lny=wTx+blny=w^{T}x+b

上式形式上仍然是線性迴歸,但是在實質上已經是在求解輸入空間到輸出空間的非線性函式對映。這裡的對數函式起到了將線性迴歸模型的預測值和真實標記聯絡起來的作用。
在這裡插入圖片描述

更一般的,我們通過引入單調可微函式g(`)得到廣義線性模型:
y=g1(wTx+b)y=g^{-1}\left ( w^{T}x+b \right )

3.3對數機率迴歸

這裡我們首先要注意的是對數機率迴歸是用於處理分類問題嗎,不是迴歸問題。

我們通過一個單調可微函式將分類任務的真實標記yy與線性迴歸模型的預測值聯絡起來。
在這裡插入圖片描述
因為單位階躍函式不連續,所以我們用對數機率函式來進行替代:
y=11+ezy=\frac{1}{1+e^{-z}},將對數機率函式作為我們之前提出的可微函式g(·),得:
y=11+e(wTx+b)y=\frac{1}{1+e^{-\left ( w^{T}x+b \right )}}
上式可以推導為:lny1y=wT+bln\frac{y}{1-y}=w^{T}+b

其中我們把yy看做是正例的可能性,1y1-y看成是反例的可能性,則=兩者的比值y1y\frac{y}{1-y}稱為機率,反映了xx作為正例的相對可能性對機率取對數則得到"對數機率":lny1yln\frac{y}{1-y}

接下來,我們就可以用“極大似然法”來對wwbb進行估計。

3.4線性判別分析

線性判別分析(LDA)是一種經典的線性學習方法:給定一個訓練樣本,設法將樣例投影到一條直線上,使得同類樣例的投影點儘可能接近、異類樣例的投影點儘可能遠離;在對新樣本進行分類時,將其投影到同樣的這條直線上,再根據投影點的位置來確定新樣本的類別:
在這裡插入圖片描述

投影:wTμ0w^{T}\mu _{0}wTμ1w^{T}\mu _{1}
協方差: wT0ww^{T}\sum _{0} wwT1ww^{T}\sum _{1} w

欲使同類樣例的投影點儘可能接近,可以讓同類樣例投影點的協方差儘可能小;而欲使異類樣例的投影點儘可能遠離,可以讓類中心之間的距離儘可能大。
在這裡插入圖片描述

藉助"類內散度矩陣" 和"類間散度矩陣",我們可以將上式轉化為:
在這裡插入圖片描述

3.5 多分類學習

這一部分主要是講述如何對資料集進行拆分換個整合。

有些二分類學習方法可直接推廣到多分類,但在更多情形下,我們是基於一些基本策略,利用二分類學習器來解決多分類問題。

對於考慮N 個類別C1,C2,C3....CNC_{1},C_{2},C_{3}....C_{N}, 多分類學習的基本思路是"拆解法"即將多分類任務拆為若干個二分類任務求解.

最經典的拆分策略有三種. “一對一” (One vs. One,簡稱OvO) 、“一對其餘” (One vs. Rest ,簡稱OvR)和"多對多" (Many vs. Many,簡稱MvM)。

3.6類別不平衡問題

類別不平衡(class-imbalance)就是指分類任務中不同類別的訓練樣例數目差別很大的情況。

當訓練集中正、反例的數目不同時,我們直接拿預測機率和觀測機率進行比較就可以得出結論。如正例數目為m+m^{+},反例數目為mm^{-},則觀察機率為m+m\frac{m_{+}}{m_{-}},當分類器的預測機率高於觀測機率便可以判斷為正例:
在這裡插入圖片描述
具體與上文的判別方法進行結合,我們只需要對預測值進行調整即可:
在這裡插入圖片描述
也就是我們常說的“再縮放”

相關文章