MLAPP——概率機器學習知識彙總

weixin_34126215發表於2015-09-14

《機器學習》課程使用Kevin P. Murphy圖書《Machine Learning A Probabilistic Perspective》本英語教材,本書從一個獨特的數學概率論的角度解釋機器學習的所有問題,要較強的數學基礎。由於是英文教材。特開一個專題在此記錄自己的學習過程和各種問題。以供備忘和舉一反三之用。

在解說了機器學習的概述之後。第二章緊接著就開始講述概率論的知識,通過興許的學習會發現,這些概率論知識有部分在本科的概率論課程中學習過,可是有非常多其它部分是沒有在現有的本科階段甚至研究生階段也非常少涉及的知識點。在此做一個總結。

1、概率學派

頻率學派:概率代表的是對一個試驗反覆執行N次。所關注的事件發生的頻率。這裡要求的是須要進行反覆試驗,這對於一般可反覆執行的試驗是比較好的標識方式。這也成為實驗概率。

貝葉斯學派:概率代表的是人們對一個未知事件發生的不確定性的一種表徵,這裡不要求對這個事件進行反覆試驗。同一時候對於不論什麼未知的事件,都能夠用一個概率來表徵人們對它的認識。

通過上述比較能夠發現,對於某些不能反覆試驗的事件(比方生成燈管的工廠生成的燈管的平均使用壽命,進行反覆實驗是不現實的)。使用貝葉斯概率的解釋更加合理。因此在整個學習中都以貝葉斯學派為準。

2、基本知識

概率:事件空間Ω到實數域R的對映,對於每一個事件A,都有一個實數p(A)與之相應,同一時候滿足:(1)非負性。p(A)>=0。(2)規範性,p(Ω)=1;(3)可列可加性:p(A1+A2+…An) = p(A1)+p(A2)+…p(An)當中A1、A2…An都是互補相容的事件。

基本概率公式:


全概率公式和貝葉斯公式:


通用的貝葉斯分類器:

θ為模型的引數)

3、離散型分佈

(1)二項分佈Binomial

K為每次試驗可能出現的結果,n為進行試驗的次數。貝努利試驗就是K={0。1}且n=1的試驗,對於n(n>1)的n重貝努利實驗就是二項分佈,分佈函式例如以下:


mean=θ,variance=nθ(1-θ)。

二項分佈描寫敘述的典型試驗就是拋硬幣,每次出現正面或者反面兩種結果。

這在機器學習的分類演算法中用於描寫敘述二值的特徵。也就是每一個資料的特徵的取值是兩個狀態(通常是0和1),用來表徵當前資料是否有這個特徵,因此能夠使用二項分佈來描寫敘述當前特徵的分佈。

(2)多項分佈Multinormial

當每次試驗出現的結果可能有K(K>2)種時,也就是一個特徵的不不過表徵是否出現,而是須要用一個詳細數值來表徵該特徵的影響大小。此時能夠用多項分佈進行描寫敘述。


此處。當K=2時也就是兩種狀態,能夠看出多項分佈就退化到了二項分佈,能夠看出x1=k,x2=n-k,x1+x2=n條件滿足。

當中,當n=1時。也就是僅僅進行一次試驗,此時的分佈稱為多維貝努利分佈,由於每次的可能狀態有K(K>2)個,也成為離散分佈(discrete distribution)或者分類分佈(categorical distribution)。記為Cat(x|θ):


(3)泊松分佈Poisson

變數X={0,1,2.....},λ>0,分佈例如以下:


泊松分佈能夠用來模擬以時間序列傳送的事件,具有無記憶性。

4、連續型分佈

(1)正態分佈Gaussian(Normal)


mean=u。mode=u,variance=σ^2。在統計學中應用很廣泛,首先兩個引數很好理解。各自是均值和標準差。同一時候,中心極限定理得到相互獨立的隨機變數的和的分佈近似為高斯分佈,能夠用來模擬噪聲資料;第三。高斯分佈使用了最小的如果也就是擁有最大熵。第四,數學形式相對簡單,很利於實現。

(2)Student t分佈


mean=u。mode=u,variance=νσ^2/(ν-2)。ν>0為自由度,方差在ν>2時有定義。均值在ν>1時有定義。此分佈形式上與高斯分佈類似,彌補了高斯分佈的一個不足,就是高斯分佈對離群的資料非常敏感,可是Student t分佈更魯棒

一般設定ν=4,在大多數實際問題中都有非常好的效能,當ν大於等於5時將會是去魯棒性,同一時候會迅速收斂到高斯分佈。


特別的。當ν=1時。被稱為柯西分佈(Cauchy)。

(3)拉普拉斯分佈Laplace


mean=u,mode=u,variance=2b^2。

也被稱為雙側指數分佈,引出了絕對值的指數次方,因此在x=u處不可導。b(b>0)為縮放因子,用來調節資料的分散程度。拉普拉斯分佈對離群資料的魯棒性更好。同一時候,在x=u處給予了比高斯分佈更大的概率密度,這個性質能夠用來修正模型中稀疏的資料。

(4)Gamma分佈


mean=a / b,mode=(a-1) / b,variance=a / b^2,mean在a>1時有定義。variance在a>2時有定義。當中變數T的範圍為T>0。a>0稱為形狀引數,b>0稱為速率引數。

  • Exponential分佈:a=1,b=λ時,Expon(x|λ)=Ga(x|1,λ),這個分佈描寫敘述了連續的泊松過程,與離散型的泊松分佈共軛。

  • ErLang分佈:ErLang(x|λ)=Ga(x|2,λ)
  • Chi-Squared分佈(卡方分佈):ChiSq(x|v)=Ga(x|v/2,1/2),這是N個高斯分佈的隨機變數的平方和所服從的分佈。
當使用1/x取代Gamma分佈中的變數時。得到的是反Gamma分佈。即:

mean=b / (a-1)。mode=b / (a+1),variance=b^2 / (a-1)^2(a-2),當中mean在a>1時定義。variance在a>2時定義。

(5)Beta分佈


定義在[0,1]區間上。要求a>0,b>0,當a=b=1時就是[0,1]上的均勻分佈。mean=a / (a+b), mode=(a-1) / (a+b-2), variance = ab / (a+b)^2(a+b+1)。這個分佈與離散的二項分佈是共軛的。在樸素貝葉斯分類應用中,當似然分佈為二項分佈時,選擇Beta分佈為共軛先驗分佈,則後驗分佈也為Beta分佈。很便於實際操作和計算。

(6)Pareto分佈


mean=km/(k-1)(k>1)。mode=m。variance=mk^2 / (k-1)^2(k-2)(k>2),這個分佈相應有一個Zipf's 定律,用來描寫敘述單詞的排名和其出現的頻率的關係。x必須比一個常數m要大,可是不能超過k,當k為無窮大時,這個分佈會趨於δ(x-m)。上述分佈在資訊檢索中對索引構建中的詞頻預計非常有效。

(7)狄利克雷分佈Dirichlet


mean(Xk)=ak/a0, mode(Xk) = (ak - 1) / (a0 - K), variance(Xk) = ak(a0-ak) / a0^2(a0+1)。這是beta分佈在多維條件下的分佈。相應的引數和變數都是一個向量,這個分佈與離散的多項分佈時共軛的,在樸素貝葉斯分類應用中,似然使用多項分佈時。選擇Dirichlet分佈為先驗分佈,得到後驗分佈也為Dirichlet分佈。

以上對機器學習中使用做一個概率分佈彙總,也許在時間的學習筆記和複習。

版權宣告:本文博主原創文章,部落格,未經同意不得轉載。

相關文章