深度學習中的貝葉斯統計簡介

dicksonjyl560101發表於2018-10-04

貝葉斯用概率反映知識狀態的確定性程度。資料集能夠被直接觀測到,因此不是隨機的。另一方面,真實引數θ是未知或不確定的,因此可以表示成隨機變數。在觀察到資料前,我們將θ的已知知識表示成先驗概率分佈(prior probability distribution),p(θ)(有時簡單地稱為”先驗”)。


相對於最大似然估計,貝葉斯估計有兩個重要區別:(1)、不像最大似然方法預測時使用θ的點估計,貝葉斯方法使用θ的全分佈。(2)、是由貝葉斯先驗分佈造成的。先驗能夠影響概率質量密度朝引數空間中偏好先驗的區域偏移。實踐中,先驗通常表現為偏好更簡單或更光滑的模型。對貝葉斯方法的批判認為先驗是人為主觀判斷影響預測的來源。


當訓練資料很有限時,貝葉斯方法通常泛化得更好,但是當訓練樣本數目很大時,通常會有很大的計算代價。



原則上,我們應該使用引數θ的完整貝葉斯後驗分佈進行預測,但單點估計常常也是需要的。希望使用點估計的一個常見原因是,對於大多數有意義的模型而言,大多數涉及到貝葉斯後驗的計算是非常棘手的,點估計提供了一個可行的近似解。我們仍然可以讓先驗影響點估計的選擇來利用貝葉斯方法的優點,而不是簡單地回到最大似然估計。一種能夠做到這一點的合理方式是選擇最大後驗(Maximum A Posteriori, MAP)點估計。MAP估計選擇後驗概率最大的點(或在θ是連續值的更常見情況下,概率密度最大的點)。


MAP貝葉斯推斷的優勢是能夠利用來自先驗的資訊,這些資訊無法從訓練資料中獲得。該附加資訊有助於減少最大後驗點估計的方差(相比於ML估計)。然而,這個優點的代價是增加了偏差。


許多正規化估計方法,例如權重衰減正則化的最大似然學習,可以被解釋為貝葉斯推斷的MAP近似。MAP貝葉斯推斷提供了一個直觀的方法來設計複雜但可解釋的正則化項。例如,更復雜的懲罰項可以通過混合高斯分佈作為先驗得到,而不是一個單獨的高斯分佈。


貝葉斯定理(Bayes’ theorem)是概率論中的一個定理,它跟隨機變數的條件概率以及邊緣概率分佈有關。在有些關於概率的解說中,貝葉斯定理能夠告知我們如何利用新證據修改已有的看法。


通常,事件A在事件B(發生)的條件下的概率,與事件B在事件A(發生)的條件下的概率是不一樣的;然而,這兩者是有確定的關係的,貝葉斯定理就是這種關係的陳述。貝葉斯公式的一個用途在於通過已知的三個概率函式推出第四個。


作為一個普遍的原理,貝葉斯定理對於所有概率的解釋是有效的;然而,頻率主義者和貝葉斯主義者對於在應用中,某個隨機事件的概率該如何被賦值,有著不同的看法:頻率主義者根據隨機事件發生的頻率,或者總體樣本里面的發生的個數來賦值概率;貝葉斯主義者則根據未知的命題來賦值概率。這樣的理念導致貝葉斯主義者有更多的機會使用貝葉斯定理。


貝葉斯定理是關於隨機事件A和B的條件概率的一則定理:


其中P(A|B)是在B發生的情況下A發生的可能性。


在貝葉斯定理中,每個名詞都有約定俗成的名稱:

(1)、P(A|B)是已知B發生後A的條件概率,也由於得自B的取值而被稱作A的後驗概率;

(2)、P(B|A)是已知A發生後B的條件概率,也由於得自A的取值而被稱作B的後驗概率;

(3)、P(A)是A的先驗概率(或邊緣概率),之所以稱為”先驗”是因為它不考慮任何B方面的因素;

(4)、P(B)是B的先驗概率或邊緣概率。



按這些術語,貝葉斯定理可表述為:後驗概率=(相似度 * 先驗概率) / 標準化常量。也就是說,後驗概率與先驗概率和相似度的乘積成正比。另外,比例P(B|A)/P(B)也有時被稱作標準相似度(standardized likelihood),貝葉斯定理可表述為:後驗概率=標準相似度 * 先驗概率。


貝葉斯概率(Bayesian probability)是由貝葉斯理論所提供的一種對概率的解釋,它採用將概率定義為某人對一個命題信任的程度的概念。貝葉斯理論同時也建議貝葉斯定理可以用作根據新的資訊匯出或者更新現有的置信度的規則。


英國學者托馬斯·貝葉斯在《論有關機遇問題的求解》中提出一種歸納推理的理論,後被一些統計學者發展為一種系統的統計推斷方法,稱為貝葉斯方法。採用這種方法作統計推斷所得的全部結果,構成貝葉斯統計的內容。認為貝葉斯方法是唯一合理的統計推斷方法的統計學者,組成數理統計學中的貝葉斯學派。


貝葉斯統計中的兩個基本概念是先驗分佈和後驗分佈。


先驗分佈:它是總體分佈引數θ的一個概率分佈。貝葉斯學派的根本觀點,是認為在關於θ的任何統計推斷問題中,除了使用樣本X所提供的資訊外,還必須對θ規定一個先驗分佈,它是在進行推斷時不可或缺的一個要素。貝葉斯學派把先驗分佈解釋為在抽樣前就有的關於θ的先驗資訊的概率表述,先驗分佈不必有客觀的依據,它可以部分地或完全地基於主觀信念。


後驗分佈:根據樣本X的分佈及θ的先驗分佈,用概率論中求條件概率分佈的方法,可算出在已知X的條件下,θ的條件分佈。因為這個分佈是在抽樣以後才得到的,故稱為後驗分佈。貝葉斯學派認為:這個分佈綜合了樣本X及θ先驗分佈所提供的有關的資訊。抽樣的全部目的,就在於完成由先驗分佈到後驗分佈的轉換。


貝葉斯推斷方法的關鍵在於所作出的任何推斷都必須也只須根據後驗分佈,而不能再涉及X的樣本分佈。


貝葉斯學派與頻率學派爭論的焦點在於先驗分佈的問題。所謂頻率學派是指堅持概率的頻率解釋的統計學家形成的學派。貝葉斯學派認為先驗分佈可以是主觀的,它沒有也不需要有頻率解釋。而頻率學派則認為,只有在先驗分佈有一種不依賴主觀的意義,且能根據適當的理論或以往的經驗決定時,才允許在統計推斷中使用先驗分佈,否則就會喪失客觀性。


以上內容主要摘自:  《深度學習中文版》  和  維基百科

GitHub https://github.com/fengbingchun/NN_Test


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2215432/,如需轉載,請註明出處,否則將追究法律責任。

相關文章