Pattern Recognition and Machine Learning 第三章(1)

哲遠發表於2012-01-09

前一章中我們談論到一個Pattern Recognition的一個數學應用基礎,這一章中我們會討論一個具體的問題,就是線性模型迴歸問題(Linear Models for Regression)。

在討論這一章中,我們先討論一個概念,叫做基礎函式(basis functions),我們舉例說明 enter image description here

其中:g(xn)叫做基礎函式(basis functions)。

因此,剛剛我們討論到線性模型迴歸問題中:

enter image description here

enter image description here

因此,除了矩陣w之外,enter image description here是一個非常重要的一個函式,如何才能達到分類效應? 這裡還需要討論到另外一個概念,叫做sigmoid function

enter image description here

若要達到分類的效果,則:

enter image description here

下面討論另外幾個問題:

1、最大化概率和最小化平方值

enter image description here

因此,已知x,w的前提下,值為t的概率為:

enter image description here

因此,假設我們有一個樣本enter image description here,和最終的結果enter image description here,則他的機率為:

enter image description here

取自然對數:可得: enter image description here enter image description here

其中:

enter image description here

我們將這個函式對w取導,並且將值取為0: enter image description here enter image description here

因此我們就可以得到:

enter image description here

enter image description here

上面的計算就是用於確定矩陣w的方法,但是,這裡我又會引出另外一個問題,就是在於,通常情況我們遇到的問題中,樣本資料將會非常大,若數量超過1000,那麼矩陣計算將會非常複雜,效率也會很低,那麼我們這裡引進另外一個概念,就是線性學習,或者是線上學習(online algorithm),通過不斷修正w的值,我們在多次迭代計算後,得到一個比較接近理想的w的值 enter image description here

在前一章中,我們討論過over-fitting的問題,我們之前講過,由於over-fitting會導致泛化性降低,因此誤差函式被修正為:

enter image description here

那麼:

enter image description here

2、偏差變數分解

我們在第一章中討論到的overfitting的問題,雖然通過減小M的值可以達到避免這個問題,但是限制這個變數會導致另外一個問題,就是會降低這個模型的靈活性,從而無法捕捉到一些資料的一些有趣並且有用的特性,同樣,雖然引入修正項也可以避免overfitting的問題。但是如何確定λ的值也是一個問題。 我們在前面一章中講到過,overfitting的現象對於最大化可能性是一個十分糟糕的屬性。在本章中,我們應當考慮貝葉斯模型的視角的複雜性,構建這樣一個機率的視角是十分具有建設性的,即偏差變數分解(Bias-variance decomposition)我們需要將平方損失函式從平方和誤差函式中分離出來進行分析,我們使用h(x)這個函式: enter image description here

期望誤差函式E[L]可以被寫為: enter image description here 第一項取決於我們對於y(x)函式的選擇,因為這一項是非負的,所以最小值為0,如果我們有足夠的資料集D,我們可以在任何度數上找到迴歸函式h(x),但是在通常的實際應用中,D中所包含的資料個數N是有限的所以我們經常不知道迴歸函式h(x)的究竟是多少。但是,對於一個資料集D,我們可以使用我們的學習函式來獲得一個預測函式y(x;D).不同的資料集會給出不同的函式和不同的平方差值,一個特定的學習函式的效用,是在對不同的資料集取平均而被評估得到的。 enter image description here

因此,期望損失值(expected loss)為:

expected loss=(bias)2+variance+noise enter image description here enter image description here enter image description here

我們的目標在於最小化期望損失值,通過實驗我們可以發現,在variance和bias的值之間有一個平衡的關係(即當variance增大,bias減小,反之亦然),因此,最佳的模型在於能夠在兩者之間取一個平衡。

相關文章