關於共軛分佈,beta分佈,二項分佈和Dirichlet分佈、多項式分佈的關係

一個人的場域發表於2016-12-06

參考:http://www.cnblogs.com/wybang/p/3206719.html

在機器學習領域中,概率模型是一個常用的利器。用它來對問題進行建模,有幾點好處:1)當給定引數分佈的假設空間後,可以通過很嚴格的數學推導,得到模型的似然分佈,這樣模型可以有很好的概率解釋;2)可以利用現有的EM演算法或者Variational method來學習。通常為了方便推導引數的後驗分佈,會假設引數的先驗分佈是似然的某個共軛分佈,這樣後驗分佈和先驗分佈具有相同的形式,這對於建模過程中的數學推導可以大大的簡化,保證最後的形式是tractable。

    在概率模型中,Dirichlet這個詞出現的頻率非常的高。初始機器學習的同學或者說得再廣一些,在學習概率模型的時候,很多同學都不清楚為啥一個表現形式如此奇怪的分佈Dirichlet分佈會出現在我們的教科書中,它是靠啥關係攀上了多項分佈(Multinomial distribution)這個親戚的,以至於它可以“堂而皇之”地扼殺我大天朝這麼多數學家和科學家夢想的?為了引出背後這層關係,我們需要先介紹一個概念——共軛先驗(Conjugate Prior)

  • Conjugate Prior: In Bayesian probability theory, if the posterior distributions p(θ|x) are in the same family as the prior probability distribution p(θ), the prior and posterior are then called conjugate distributions, and the prior is called a conjugate prior for the likelihood. ----from wiki
  • 用中文來講,在貝葉斯統計理論中,如果某個隨機變數Θ的後驗概率 p(θ|x)和其先驗概率p(θ)屬於同一個分佈簇的,那麼稱p(θ|x)和p(θ)為共軛分佈,同時,也稱p(θ)為似然函式p(x|θ)的共軛先驗。

    介紹了這個重要的概念之後,我們回到文章的正題。首先需要弄清楚什麼是二項分佈(Binomial distribution)。這個概念是從伯努利分佈推進的。伯努利分佈是一個離散型的隨機分佈,其中的隨機變數只有兩類取值,非正即負{+,-}。二項分佈即重複n次的伯努利試驗,記為 X~b(n,p)。概率密度函式(概率質量函式)為。再來看看Beta分佈,給定引數,取值範圍為[0,1]的隨機變數x的概率密度函式,其中。這裡假定,先驗分佈和似然概率如下所示:

那麼很容易知道後驗概率(條件概率)

     弄清楚了Beta分佈和二項分佈之間的關係後,對於接下來的Dirichlet 分佈和多項分佈(Multinomial distribution)的關係理解將會有非常大的幫助。多項分佈,從字面上所表現出的含義,我們也大抵知道它的意思。它本身確實也是這樣的,其單次試驗中的隨機變數的取值不再是0-1的,而是有多種離散值可能(1,2,3...,k),其中。多項分佈的概率密度函式為。而Dirichlet分佈的的密度函式形式也如出一轍:,其中。到這裡,我們可以看到Beta分佈和Dirichlet 分佈有多相似啊,二項分佈和多項分佈有多相似啊

     再一次來看看共軛。假設有先驗分佈

另有似然函式

則後驗概率

,和Dirichlet 分佈形式一致。

    其實,細心的讀者已經發現,這裡這四類分佈,如果但從數學形式上看,它們的組織形式都是一致的,都是通過乘積的形式構成,加上先驗分佈、似然函式和後驗分佈之間的乘積推導關係,可以很容易發現,它們所表現出的共軛性質很容易理解。


相關文章