從貝葉斯定理到概率分佈:綜述概率論基本定義

機器之心發表於2017-09-20
本文從最基礎的概率論到各種概率分佈全面梳理了基本的概率知識與概念,這些概念可能會幫助我們瞭解機器學習或開拓視野。這些概念是資料科學的核心,並經常出現在各種各樣的話題上。重溫基礎知識總是有益的,這樣我們就能發現以前並未理解的新知識。

簡介

在本系列文章中,我想探討一些統計學上的入門概念,這些概念可能會幫助我們瞭解機器學習或開拓視野。這些概念是資料科學的核心,並經常出現在各種各樣的話題上。重溫基礎知識總是有益的,這樣我們就能發現以前並未理解的新知識,所以我們開始吧。
第一部分將會介紹概率論基礎知識。

概率
我們已經擁有十分強大的數學工具了,為什麼我們還需要學習概率論?我們用微積分來處理變化無限小的函式,並計算它們的變化。我們使用代數來解方程,我們還有其他幾十個數學領域來幫助我們解決幾乎任何一種可以想到的難題。
難點在於我們都生活在一個混亂的世界中,多數情況下無法準確地測量事物。當我們研究真實世界的過程時,我們想了解許多影響實驗結果的隨機事件。不確定性無處不在,我們必須馴服它以滿足我們的需要。只有如此,概率論和統計學才會發揮作用。
如今,這些學科處於人工智慧,粒子物理學,社會科學,生物資訊學以及日常生活中的中心。
如果我們要談論統計學,最好先確定什麼是概率。其實,這個問題沒有絕對的答案。我們接下來將闡述概率論的各種觀點。
頻率
想象一下,我們有一枚硬幣,想驗證投擲後正反面朝上頻率是否相同。我們如何解決這一問題?我們試著進行一些實驗,如果硬幣正面向上記錄 1,如果反面向上記錄 0。重複投擲 1000 次並記錄 0 和 1 的次數。在我們進行了一些繁瑣的時間實驗後,我們得到了這些結果:600 個正面(1)和 400 反面(0)。如果我們計算過去正面和反面的頻率,我們將分別得到 60%和 40%。這些頻率可以被解釋為硬幣出現正面或者反面的概率。這被稱為頻率化的概率。
條件概率
通常,我們想知道某些事件發生時其它事件也發生的概率。我們將事件 B 發生時事件 A 也發生的條件概率寫為 P(A | B)。以下雨為例:
  • 打雷時下雨的概率有多大?
  • 晴天時下雨的概率有多大?
從貝葉斯定理到概率分佈:綜述概率論基本定義
從這個尤拉圖,我們可以看到 P(Rain | Thunder)= 1 :當我們看到雷聲時,總會下雨(當然,這不完全正確,但是我們在這個例子中保證它成立)。
P(Rain | Sunny)是多少呢?直覺上這個概率很小,但是我們怎樣才能在數學上做出這個準確的計算呢?條件概率定義為:
從貝葉斯定理到概率分佈:綜述概率論基本定義
換句話說,我們用 Rain 且 Sunny 的概率除以 Sunny 的概率。

相依事件與獨立事件
如果一個事件的概率不以任何方式影響另一個事件,則該事件被稱為獨立事件。以擲骰子且連續兩次擲得 2 的概率為例。這些事件是獨立的。我們可以這樣表述
從貝葉斯定理到概率分佈:綜述概率論基本定義
但是為什麼這個公式可行?首先,我們將第一次投擲和第二次投擲的事件重新命名為 A 和 B,以消除語義影響,然後將我們看到的兩次投擲的的聯合概率明確地重寫為兩次投擲的單獨概率乘積:
從貝葉斯定理到概率分佈:綜述概率論基本定義
現在用 P(A)乘以 P(B)(沒有變化,可以取消)並重新回顧條件概率的定義:
從貝葉斯定理到概率分佈:綜述概率論基本定義
如果我們從右到左閱讀上式,我們會發現 P(A | B) = P(A)。這就意味著事件 A 獨立於事件 B!P(B)也是一樣,獨立事件的解釋就是這樣。

貝葉斯概率論
貝葉斯可以作為一種理解概率的替代方法。頻率統計方法假設存在我們正在尋找的模型引數的一個最佳的具體組合。另一方面,貝葉斯以概率方式處理引數,並將其視為隨機變數。在貝葉斯統計中,每個引數都有自己的概率分佈,它告訴我們給已有資料的引數有多種可能。數學上可以寫成
從貝葉斯定理到概率分佈:綜述概率論基本定義
這一切都從一個允許我們基於先驗知識來計算條件概率的簡單的定理開始:
從貝葉斯定理到概率分佈:綜述概率論基本定義
儘管貝葉斯定理很簡單,但它具有巨大的價值,廣泛的應用領域,甚至是貝葉斯統計學的特殊分支。有一個關於貝葉斯定理的非常棒的部落格文章,如果你對貝葉斯的推導感興趣---這並不難。

抽樣與統計
假設我們正在研究人類的身高分佈,並渴望發表一篇令人興奮的科學論文。我們測量了街上一些陌生人的身高,因此我們的測量資料是獨立的。我們從真實人群中隨機選擇資料子集的過程稱為抽樣。統計是用來總結采樣值資料規律的函式。你可能見過的統計量是樣本均值:
從貝葉斯定理到概率分佈:綜述概率論基本定義
另一個例子是樣本方差:
從貝葉斯定理到概率分佈:綜述概率論基本定義
這個公式可以得出所有資料點偏離平均值的程度。

分佈

什麼是概率分佈?這是一個定律,它以數學函式的形式告訴我們在一些實驗中不同可能結果的概率。對於每個函式,分佈可能有一些引數來調整其行為。
當我們計算硬幣投擲事件的相對頻率時,我們實際上計算了一個所謂經驗概率分佈。事實證明,世界上許多不確定的過程可以用概率分佈來表述。例如,我們的硬幣結果是一個伯努利分佈,如果我們想計算一個 n 次試驗後硬幣正面向上的概率,我們可以使用二項式分佈。
引入一個類似於概率環境中的變數的概念會方便很多--隨機變數。每個隨機變數都具有一定的分佈。隨機變數預設用大寫字母表示,我們可以使用 ~ 符號指定一個分佈賦給一個變數。
從貝葉斯定理到概率分佈:綜述概率論基本定義
上式表示隨機變數 X 服從成功率(正面向上)為 0.6 的伯努利分佈。

連續和離散概率分佈
概率分佈可分為兩種:離散分佈用於處理具有有限值的隨機變數,如投擲硬幣和伯努利分佈的情形。離散分佈是由所謂的概率質量函式(PMF)定義的,連續分佈用於處理連續的(理論上)有無限數量的值的隨機變數。想想用聲音感測器測量的速度和加速度。連續分佈是由概率密度函式(PDF)定義的。
這兩種分佈型別在數學處理上有所不同:通常連續分佈使用積分 ∫ 而離散分佈使用求和Σ。以期望值為例:
從貝葉斯定理到概率分佈:綜述概率論基本定義
下面我們將詳細介紹各種常見的概率分佈型別,正如上所說,概率分佈可以分為離散型隨機變數分佈和連續性隨機變數分佈。離散型隨機變數分佈常見的有伯努利分佈(Bernoulli Distribution)、二項分佈(Binomial Distribution)、泊松分佈(Poisson Distribution)等,而常見的連續型隨機變數分佈包括均勻分佈(Uniform Distribution)、指數分佈(Exponential Distribution)、正態分佈等。

常見的資料型別

在解釋各種分佈之前,我們先看看常見的資料型別有哪些,資料型別可分為離散型和連續型。
離散型資料:資料只能取特定的值,比如,當你擲一個骰子的時候,可能的結果只有 1,2,3,4,5,6 而不會是 1.5 或者 2.45。
連續型資料:資料可以在給定的範圍內取任何值,給定的範圍可以是有限的或無限的,比如一個女孩的體重或者身高,或者道路的長度。一個女孩的體重可以是 54 kgs,54.5 kgs,或 54.5436kgs。

分佈的型別

伯努利分佈
最簡單的離散型隨機變數分佈是伯努利分佈,我們從這裡開始討論。
一個伯努利分佈只有兩個可能的結果,記作 1(成功)和 0(失敗),只有單次伯努利試驗。設定一個具有伯努利分佈的隨機變數 X,取值為 1 即成功的概率為 p,取值為 0 即失敗的概率為 q 或者 1-p。
若隨機變數 X 服從伯努利分佈,則概率函式為:
從貝葉斯定理到概率分佈:綜述概率論基本定義
成功和失敗的概率不一定要相等。比如當我和一個運動員打架的時候,他的勝算應該更大,在這時候,我的成功概率是 0.15,而失敗概率是 0.85。
下圖展示了我們的戰鬥的伯努利分佈。
從貝葉斯定理到概率分佈:綜述概率論基本定義
如上圖所示,我的成功概率=0.15,失敗概率=0.85。期望值是指一個概率分佈的平均值,對於隨機變數 X,對應的期望值為:E(X) = 1*p + 0*(1-p) = p,而方差為 V(X) = E(X^2) – [E(X)]^2 = p – p^2 = p(1-p)
實際上還有很多關於伯努利分佈的例子,比如明天是晴天還是雨天,這場比賽中某一隊輸還是贏,等等。

二項分佈
現在回到擲硬幣的案例中,當擲完第一次,我們可以再擲一次,也就是存在多個伯努利試驗。第一次為正不代表以後也會為正。那麼設一個隨機變數 X,它表示我們投擲為正面的次數。X 可能會取什麼值呢?在投擲硬幣的總次數範圍內可以是任何非負整數。
如果存在一組相同的隨機事件,即一組伯努利試驗,在上例中為連續擲硬幣多次。那麼某隨機事件出現的次數即概率服從於二項分佈,也稱為多重伯努利分佈。
任何一次試驗都是互相獨立的,前一次試驗不會影響當前試驗的結果。兩個結果概率相同的試驗重複 n 次的試驗稱為多次伯努利試驗。二項分佈的引數為 n 和 p,n 是試驗的總次數,p 是每一次試驗的成功概率。
根據以上所述,一個二項分佈的性質為:

1. 每一次試驗都是獨立的;
2. 只有兩個可能的結果;
3. 進行 n 次相同的試驗;
4. 所有試驗中成功率都是相同的,失敗的概率也是相同的。
二項分佈的數學表示式為:
從貝葉斯定理到概率分佈:綜述概率論基本定義
成功概率和失敗概率不相等的二項分佈看起來如下圖所示:
從貝葉斯定理到概率分佈:綜述概率論基本定義
而成功概率和失敗概率相等的二項分佈看起來如下圖所示:
從貝葉斯定理到概率分佈:綜述概率論基本定義
二項分佈的平均值表示為 µ = n*p,而方差可以表示為 Var(X) = n*p*q。

泊松分佈
如果你在一個呼叫中心工作,一天內會接到多少次呼叫呢?多少次都可能!在呼叫中心一天能接到多少次呼叫可以用泊松分佈建模。這裡有幾個例子:
1. 一天內醫院接到的緊急呼叫次數;
2. 一天內地方接到的偷竊事件報告次數;
3. 一小時內光顧沙龍的人數;
4. 一個特定城市裡報告的自殺人數;
5. 書的每一頁的印刷錯誤次數。

現在你可以按相同的方式構造很多其它的例子。泊松分佈適用於事件發生的時間和地點隨機分佈的情況,其中我們只對事件的發生次數感興趣。泊松分佈的主要特點為如下:
1. 任何一個成功事件不能影響其它的成功事件;
2. 經過短時間間隔的成功概率必須等於經過長時間間隔的成功概率;
3. 時間間隔趨向於無窮小的時候,一個時間間隔內的成功概率趨近零。

在泊松分佈中定義的符號有:
  • λ是事件的發生率;
  • t 是事件間隔的長度;
  • X 是在一個時間間隔內的事件發生次數。
設 X 是一個泊松隨機變數,那麼 X 的概率分佈稱為泊松分佈。以µ表示一個時間間隔 t 內平均事件發生的次數,則 µ=λ*t;
X 的概率分佈函式為:
從貝葉斯定理到概率分佈:綜述概率論基本定義
泊松分佈的概率分佈圖示如下,其中µ為泊松分佈的引數:
從貝葉斯定理到概率分佈:綜述概率論基本定義
下圖展示了均值增加時的分佈曲線的變化情況:
從貝葉斯定理到概率分佈:綜述概率論基本定義
如上所示,當均值增加時,曲線向右移動。泊松分佈的均值和方差為:
均值:E(X) = µ
方差: Var(X) = µ

均勻分佈
假設我們在從 a 到 b 的一段線段上等距地選擇一個區間的概率是相等的,那麼概率在整個區間 [a,b] 上是均勻分佈的,概率密度函式也不會隨著變數的更改而更改。均勻分佈和伯努利分佈不同,隨機變數的取值都是等概率的,因此概率密度就可以表達為區間長度分之一,如果我們取隨機變數一半的可能值,那麼其出現的概率就為 1/2。
假定隨機變數 X 服從均勻分佈,那麼概率密度函式為:
從貝葉斯定理到概率分佈:綜述概率論基本定義
均勻分佈曲線圖如下所示,其中概率密度曲線下面積為隨機變數發生的概率:
從貝葉斯定理到概率分佈:綜述概率論基本定義
我們可以看到均勻分佈的概率分佈圖呈現為一個矩形,這也就是均勻分佈又稱為矩形分佈的原因。在均勻分佈中,a 和 b 都為引數,也即隨機變數的取值範圍。
服從均勻分佈的隨機變數 X 也有均值和方差,它的均值為 E(X) = (a+b)/2,方差為 V(X) = (b-a)^2/12
標準均勻分佈的密度函式引數 a 取值為 0,b 取值為 1,因此標準均勻分佈的概率密度可以表示為:
從貝葉斯定理到概率分佈:綜述概率論基本定義
指數分佈

現在我們再次考慮電話中心案例,那麼電話間隔的分佈是怎麼樣的呢?這個分佈可能就是指數分佈,因為指數分佈可以對電話的時間間隔進行建模。其它案例可能還有地鐵到達時間的建模和空調裝置週期等。
在深度學習中,我們經常會需要一個在 x=0 處取得邊界點 (sharp point) 的分佈。為了實現這一目的,我們可以使用指數分佈(exponential distribution):
從貝葉斯定理到概率分佈:綜述概率論基本定義
指數分佈使用指示函式 (indicator function)1x≥0,以使當 x 取負值時的概率為零。
其中 λ >0 為概率密度函式的引數。隨機變數 X 服從於指數分佈,則該變數的均值可表示為 E(X) = 1/λ、方差可以表示為 Var(X) = (1/λ)^2。如下圖所示,若λ較大,則指數分佈的曲線下降地更大,若λ較小,則曲線越平坦。如下圖所示:
從貝葉斯定理到概率分佈:綜述概率論基本定義
以下是由指數分佈函式推導而出的簡單表示式:
P{X≤x} = 1 – exp(-λx),對應小於 x 的密度函式曲線下面積。
P{X>x} = exp(-λx),代表大於 x 的概率密度函式曲線下面積。
P{x1<X≤ x2} =exp(-λx1)-exp(-λx2),代表 x1 點和 x2 點之間的概率密度函式曲線下面積。

正態分佈(高斯分佈)
實數上最常用的分佈就是正態分佈(normal distribution),也稱為高斯分佈(Gaussian distribution)。因為該分佈的普遍性,尤其是中心極限定理的推廣,一般疊加很多較小的隨機變數都可以擬合為正態分佈。正態分佈主要有以下幾個特點:
1. 所有的變數服從同一均值、方差和分佈模式。
2. 分佈曲線為鍾型,並且沿 x=μ對稱。
3. 曲線下面積的和為 1。
4. 該分佈左半邊的精確值等於右半邊。

正態分佈和伯努利分佈有很大的不同,然而當伯努利試驗的次數接近於無窮大時,他們的分佈函式基本上是相等的。

若隨機變數 X 服從於正態分佈,那麼 X 的概率密度可以表示為:
從貝葉斯定理到概率分佈:綜述概率論基本定義
隨機變數 X 的均值可表示為 E(X) = µ、方差可以表示為 Var(X) = σ^2。其中均值µ和標準差σ為高斯分佈的引數。
隨機變數 X 服從於正態分佈 N (µ, σ),可以表示為:
從貝葉斯定理到概率分佈:綜述概率論基本定義
標準正態分佈可以定義為均值為 0、方差為 1 的分佈函式,以下展示了標準正態分佈的概率密度函式和分佈圖:
從貝葉斯定理到概率分佈:綜述概率論基本定義

分佈之間的關係


伯努利分佈和二項分佈的關係
1. 二項分佈是伯努利分佈的單次試驗的特例,即單詞伯努利試驗;
2. 二項分佈和伯努利分佈的每次試驗都只有兩個可能的結果;
3. 二項分佈每次試驗都是互相獨立的,每一次試驗都可以看作一個伯努利分佈。

泊松分佈和二項分佈的關係
以下條件下,泊松分佈是二項分佈的極限形式:
1. 試驗次數非常大或者趨近無窮,即 n → ∞;
2. 每次試驗的成功概率相同且趨近零,即 p →0;
3.np =λ 是有限值。

正態分佈和二項分佈的關係 & 正態分佈和泊松分佈的關係
以下條件下,正態分佈是二項分佈的一種極限形式:
1. 試驗次數非常大或者趨近無窮,即 n → ∞;
2.p 和 q 都不是無窮小。
引數 λ →∞的時候,正態分佈是泊松分佈的極限形式。

指數分佈和泊松分佈的關係
如果隨機事件的時間間隔服從引數為 λ的指數分佈,那麼在時間週期 t 內事件發生的總次數服從泊松分佈,相應的引數為 λt。

測試
讀者可以完成以下簡單的測試,檢查自己對上述概率分佈的理解程度:
1. 服從標準正態分佈的隨機變數計算公式為:
a. (x+µ) / σ
b. (x-µ) / σ
c. (x-σ) / µ

2. 在伯努利分佈中,計算標準差的公式為:
a. p (1 – p)
b. SQRT(p(p – 1))
c. SQRT(p(1 – p))

3. 對於正態分佈,均值增大意味著:
a. 曲線向左移
b. 曲線向右移
c. 曲線變平坦

4. 假定電池的生命週期服從 λ = 0.05 指數分佈,那麼電池的最終使用壽命在 10 小時到 15 小時之間的概率為:
a.0.1341
b.0.1540
c.0.0079

結語

在本文中,我們從最基本的隨機事件及其概念出發討論對概率的理解。隨後我們討論了最基本的概率計算方法與概念,比如條件概率和貝葉斯概率等等。文中還討論了隨機變數的獨立性和條件獨立性。此外,本文更是詳細介紹了概率分佈,包括離散型隨機變數分佈和連續型隨機變數分佈。本文主要討論了基本的概率定理與概念,其實這些內容在我們大學的概率論與數理統計課程中基本上都有詳細的解釋。而對於機器學習來說,理解概率和統計學知識對理解機器學習模型十分重要,以它為基礎我們也能進一步理解結構化概率等新概念。


原文連結:
  • https://medium.com/towards-data-science/probabiliy-theory-basics-4ef523ae0820
  • https://www.analyticsvidhya.com/blog/2017/09/6-probability-distributions-data-science/

選自 Medium & analyticsvidhya
機器之心編譯
機器之心編輯部


本文為機器之心編譯,轉載請聯絡本公眾號獲得授權。

相關文章