第四章 線性分類模型

哲遠發表於2012-01-20

1、判別函式

判別函式指的是對於一個輸入向量x,能夠將其分配給K個類中的一個類Ck,為了逐步深入地對這個判別函式進行討論,我們逐漸增加K的值來進行分析。

我們首先對K=2進行討論: enter image description here

如果y(x)≥0那麼可以分為C2,否則分類為C1

對於任意兩個點x a,x b,如果都在判別表面(decision surface)上,即y(x a)=y(x b)=0,因此w是和每一個在判別表面的向量垂直的,我們可以得到enter image description here,因此我們可得:

enter image description here

由此可見,w0決定了判別表面的位置,我們考慮用x對決定直線進行取垂直,交點為x⊥可得:

enter image description here

enter image description here

我們可以考慮將w0和x0分別加入wx中,分別得到:enter image description here因此,我們可以得到enter image description here

2、多個類的分類判別

我們可以通過多個二元判別函式來進行對K個不同的類的判別組合,但是我們也可以引入一個K(K-1)/2的二元判別函式進行判別,每個判別函式是區分兩兩之間的函式,但是這樣的話,如果K的值太大,那麼判別函式太多,反而會導致混亂,因此我們可以引入另外一個方法,那就是考慮對每一個類引入一個判別函式,例如

enter image description here

如果enter image description here,那麼我們將某一個點x分到Ck中,不同的類Cj和Ck的界限在於yk(x)=yj(x)

2、分類的最小平方差

對於一個合理的分類,我們應當瞭解,當分類後平方差最小時,可以認為分類是合理的,由於:

enter image description here

我們把所有的類組合起來,可以得到下面的式子: enter image description here

平方差的定義為:

enter image description here

enter image description here

雖然這個方法給出了一個很好的解決正規化,但是,判別函式也有很大的問題。我們已經得到最小平方差的解決方案對於離群值(即對於離開本群距離很大的值)的分析上,缺乏健壯性。而缺乏健壯性在某種條件下比最小平方和的問題更加嚴重。這裡我們考慮一個叫做費舍爾線性判別函式(Fisher's linear discriminant),我們先從兩個類的判別函式進行討論,兩個類的平均值為:

enter image description here

最簡單的方法就是在於最大化下面的值:

enter image description here

但是這裡又有一個問題在於,我們完全可以通過增大w的係數來得到,因此我們必須做一定的假設,即w的長度為1,因此對於在類內的點,我們可以得到他的平方差之和為:

enter image description here

費舍爾特徵變了被定義為:

enter image description here

enter image description here

我們對J(w)進行取導,可以得到:

enter image description here

因此: enter image description here

enter image description here

enter image description here

enter image description here

因此: enter image description here

enter image description here

enter image description here

因此,如果對於一個新的向量x,如果enter image description here>0那麼可以分類為C1否則分類為C2。

以上是我們使用費舍爾判別函式對兩個類的判別,下面我們對多個類的判別進行討論:

enter image description here

我們通過可以得到,類內平方差之和為:

enter image description here

這裡的協方差矩陣被定義在原來的x域空間內,我們現在定義一個相似的在y空間內的方差: enter image description here enter image description here

因此,我們希望能夠構建一個純量,能夠使得類見的平方差之和越大而類內的平方差之和越小,即我們需要最大化下面的函式

enter image description here

相關文章