如何在Python中實現這五類強大的概率分佈

feigao.me發表於2015-04-25

R程式語言已經成為統計分析中的事實標準。但在這篇文章中，我將告訴你在Python中實現統計學概念會是如此容易。我要使用Python實現一些離散和連續的概率分佈。雖然我不會討論這些分佈的數學細節，但我會以連結的方式給你一些學習這些統計學概念的好資料。在討論這些概率分佈之前，我想簡單說說什麼是隨機變數（random variable）。隨機變數是對一次試驗結果的量化。

舉個例子，一個表示拋硬幣結果的隨機變數可以表示成

X = {1 如果正面朝上,
     2 如果反面朝上}

1 2	X = {1 如果正面朝上, 2 如果反面朝上}

隨機變數是一個變數，它取值於一組可能的值（離散或連續的），並服從某種隨機性。隨機變數的每個可能取值的都與一個概率相關聯。隨機變數的所有可能取值和與之相關聯的概率就被稱為概率分佈（probability distributrion）。

我鼓勵大家仔細研究一下scipy.stats模組。

概率分佈有兩種型別：離散（discrete）概率分佈和連續（continuous）概率分佈。

離散概率分佈也稱為概率質量函式（probability mass function）。離散概率分佈的例子有伯努利分佈（Bernoulli distribution）、二項分佈（binomial distribution）、泊松分佈（Poisson distribution）和幾何分佈（geometric distribution）等。

連續概率分佈也稱為概率密度函式（probability density function），它們是具有連續取值（例如一條實線上的值）的函式。正態分佈（normal distribution）、指數分佈（exponential distribution）和β分佈（beta distribution）等都屬於連續概率分佈。

若想了解更多關於離散和連續隨機變數的知識，你可以觀看可汗學院關於概率分佈的視訊。

二項分佈（Binomial Distribution）

服從二項分佈的隨機變數X表示在n個獨立的是/非試驗中成功的次數，其中每次試驗的成功概率為p。

E(X) = np, Var(X) = np(1−p)

如果你想知道每個函式的原理，你可以在IPython筆記本中使用help file命令。 E(X)表示分佈的期望或平均值。

鍵入stats.binom?瞭解二項分佈函式binom的更多資訊。

二項分佈的例子：拋擲10次硬幣，恰好兩次正面朝上的概率是多少？

假設在該試驗中正面朝上的概率為0.3，這意味著平均來說，我們可以期待有3次是硬幣正面朝上的。我定義擲硬幣的所有可能結果為k = np.arange(0,11)：你可能觀測到0次正面朝上、1次正面朝上，一直到10次正面朝上。我使用stats.binom.pmf計算每次觀測的概率質量函式。它返回一個含有11個元素的列表（list），這些元素表示與每個觀測相關聯的概率值。

您可以使用.rvs函式模擬一個二項隨機變數，其中引數size指定你要進行模擬的次數。我讓Python返回10000個引數為n和p的二項式隨機變數。我將輸出這些隨機變數的平均值和標準差，然後畫出所有的隨機變數的直方圖。