數學基礎之機率

Lei Jun發表於2014-11-04

本文主要介紹機率與數理統計中的一些常見的基本概念。

樣本空間

對於隨機試驗,儘管在每次試驗之前不能預知試驗的結果,但是試驗的所有可能結果集合是已知的,我們將隨機試驗E的所有可能的結果組成的集合稱為E的樣本空間,記為S。樣本空間的的元素,即E的每個可能結果,稱為樣本點。比如事件E:拋一枚硬幣,觀察正面H,反面T出現的情況,S={H,T}。

 

頻率(Frequency) 機率(Probability)

頻率描述了事件發生的頻繁程度,一般採用多次試驗的結果得到。

機率描述的是一次試驗中,事件發生的可能性大小。

如果試驗的次數足夠多,頻率將在一定意義下接近於機率。

 

條件機率(Conditional Probability)

設A,B是兩個事件,且P(A)>0,稱:

 $\large P(B|A) = \frac {P(AB)}{P(A)}$

為事件A發生的條件下事件B發生的機率。

 

乘法定理(Product rule)

設P(A)>0,則:

$\large P(AB)=P(B|A)P(A)$

$\large P(ABC)=P(C|AB)P(B|A)P(A)$

這個定理也很容易推廣到多個事件的情況

 

加法定理(Sum rule)

設試驗E的樣本空間為S,A為E的事件,$B_1$,$B_2$,$\ldots$,$B_n$為S的一個劃分,且 $P(B_i)>0$,則:

$\large P(A) = P(A|B_1)P(B_1) + P(A|B_2)P(B_2) + \ldots + P(A|B_n)P(B_n) $

 

貝葉斯公式(Bayes' theorem)

$\large P(B_i|A) = \frac {P(A|B_i)P(B_i)}{\sum_{j=1}^{n}P(A|B_i)P(B_i)}$

 

先驗機率(Prior probability) 後驗機率(Posterior probability)

例子:某種裝置,調整良好時,產品合格率為90%,發生故障時,合格率為30%,每天早上開工時,裝置調整良好的機率為75%,已知早上第一件產品是合格品,問裝置調整良好的機率是多少?如果定義事件A為產品合格,事件B為裝置調整良好,顯然有P(A|B)=0.9,P(A|B')=0.3,P(B)=0.75,P(B')=0.25,要求的是P(B|A)。P(B)稱為先驗機率,是根據以往的經驗資料得到的,P(B|A)是得到了第一件產品為合格品之後對P(B)做的修正,稱為後驗機率,後驗機率讓我們對裝置的情況有了更進一步的瞭解。

 

獨立事件

如果A,B兩個事件滿足

$\large P(AB)=P(A)P(B)$

稱A,B為互相獨立的事件。這個式子也很容易推廣到多個事件的情況。

 

隨機變數

如果將隨機試驗的結果數量化,比如拋硬幣,用 1 代表正面,用 0 代表反面。如果將這個數量化的結果用一個變數X表示,X就是隨機變數,根據實驗結果的不同而不同。正規的定義是:設E是隨機試驗,樣本空間是S={e},如果對於每一個e屬於S,都有一個實數X(e)與之對應,這樣就得到一個定義在S上的單值函式X=X(e),稱為隨機變數。如果X能取到的值是有限個或者可列無限個,則X稱為離散性隨機變數。

 

機率分佈

如果離散性隨機變數X的所有取值為 $x_k(k=1,2,...)$,X取各個值得機率為:

$\large P\{ X=x_k \}=p_k$

稱為離散性隨機變數X的機率分佈或者分佈律。

 

分佈函式(Cumulative distribution fucntion)

對於非離散性隨機變數X,其可能的取值不能一一列舉出來,所以不能用像離散性隨機變數那樣用分佈律來嗎描述,為此引入隨機變數分佈函式的機率。

設X是一隨機變數,x是任意實數,函式:

$\large F(x) = P \{ X \leq x \}$

稱為X的分佈函式。雖然對離散性隨機變數,可以完全用分佈律來描述,但為了數學上的統一,定義了對離散性隨機變數和非離散性隨機變數都適用的分佈函式。

 

連續性隨機變數 機率密度(Probability density function)

如果隨機變數X的分佈函式是F(x),存在非負函式f(x),使得對於任意實數x有:

$\large F(x) = \int_{-\infty}^{x}f(t)dt $

則稱X為連續性隨機變數,f(x)稱為X的機率密度函式,簡稱機率密度。

機率密度具有以下性質:

(1)$\large f(x) \geq 0 $

(2)$\large \int_{-\infty}^{\infty}f(x)dx = 1$

(3)$\large P \{ x_1 < X \leq x_2 \} = F(x_2) - F(x_1) = \int_{x_1}^{x_2}f(x)dx $

 

期望(Expectation)

 設離散性隨機變數X的分佈律為:

$\large P\{ X=x_k \}=p_k$

如果級數

$\large \sum_{k=1}^{\infty}x_k p_k $

絕對收斂,則稱為隨機變數X的期望。記作E(X)。

對於連續性隨機變數X的機率密度為f(x), 期望為:

$\large \int_{-\infty}^{\infty}xf(x)dx$

如果有函式Y=g(x),則Y的期望為:

$\large \int_{-\infty}^{\infty}g(x)f(x)dx$

期望又稱均值。

 

方差(Variance)

設X是一個隨機變數,如果$E\{[X-E(X)]^2\}$存在,則稱為X的方差,記為D(X)或者Var(X)。

方差可以按照公式 $D(X) = E(X^2) - [E(X)]^2 $計算。

方差開方$\sqrt {D(x)}$記為 $\sigma(X)$,稱為標準差或者均方差。

 

設X是隨機變數

X的k階原點矩:$E(X^k)$

X的k階中心矩:$E\{ [X-E(X)]^k\}$

顯然X的期望是X的一階原點矩,方差是X的二階中心矩

 

常見機率分佈

0-1分佈 伯努利分佈(Bernoulli distribution)

離散性隨機變數的機率分佈,隨機變數X只能取0和1兩個值,它的分佈律是

$\large P\{ X=k \} = p^k(1-p)^{1-k}, k=0,1$

$E(X) = p$, $D(X) = p(1-p)$

 

二項分佈(Binomial distribution)

隨機變數X表示n重伯努利試驗中事件A發生的次數,例如重複拋n次硬幣,出現正面的次數。X的分佈律是:

$\large P\{ X=k \} = {n \choose k}p^k(1-p)^{n-k}, k=0,1,2,...,n$

$E(X) = np$, $D(X) = np(1-p)$

 

泊松分佈(Poisson distribution)

設隨機變數X所有的可能取值為0,1,2,...,而取各個值得機率為

$\large P\{ X=k \} = \frac {\lambda^k e^{-\lambda}}{k!}, k=0,1,2,...$

則稱X服從引數為 $\lambda$的泊松分佈。

$E(X) = \lambda$, $D(X) = \lambda$

在實際事例中,當一個隨機事件,以固定的平均瞬時速率λ(或稱密度)隨機且獨立地出現時,那麼這個事件在單位時間(面積或體積)內出現的次數或個數就近似地服從泊松分佈。因此,泊松分佈在管理科學、運籌學以及自然科學的某些問題中都佔有重要的地位。例如:

(1)某一服務設施在一定時間內到達的人數

(2)電話交換機接到呼叫的次數

(3)汽車站臺的候客人數

(4)機器出現的故障數

(5)自然災害發生的次數

(6)一本書一頁中的印刷錯誤

(7)顯微鏡下單位分割槽內的細菌分佈數

(8)某放射性物質單位時間發射出的粒子數

(9)某地區一天內丟失的郵件數

(10)某醫院一天內的急診人數

 

均勻分佈(Uniform distribution)

設連續性隨機變數X具有機率密度

$\large f(x) = \left \{  {\frac {1} {b-a}, \qquad a<x<b, \atop 0, \qquad  \text{其他}} \right.$

則稱X在區間[a,b]上服從均勻分佈

$E(X)=\frac {a+b}{2}$, $D(X)=\frac {(b-a)^2}{12}$

 

正態分佈(Normal distribution, Gaussian distribution)

設連續性隨機變數X的機率密度為:

$\large f(x) = \frac {1}{\sqrt {2 \pi \sigma^2}} e^{-\frac {(x-\mu)^2}{2 \sigma^2}}, -\infty < x < \infty $

則稱X服從引數為 $\mu$, $\sigma$的正態分佈,正態分佈又叫高斯分佈。

$E(X)=\mu$, $D(X)=\sigma^2$

 

大數定理

隨機試驗中,隨著試驗次數的增加,人們發現事件發生的頻率逐漸穩定於某個常數(想想拋硬幣的例子),在實踐中,人們還認識到大量測量值的算數平均值也具有穩定性,這種穩定性就是大數定理的客觀背景。這裡我們介紹其中的一個大數定理:

辛欽定理

設隨機變數$X_1,X_2,\ldots,X_n$相互獨立,服從同一分佈(independent and identically distributed, i.i.d.),且具有相同的數學期望,$E(X_k)=\mu$,則:

$\large \lim_{n \to \infty} P \{ |\frac {1} {n} \sum_{k=1}^{n} X_k - \mu |<\varepsilon \} = 1$

 

中心極限定理

在客觀實際中有許多隨機變數,他們是由大量相互獨立的隨機因素的綜合影響形成的,而其中每一個個別因素在總的影響中所起的作用都是微小的,這種隨機變數往往近似地服從正態分佈,這種現象就是中心極限定理的客觀背景。這裡只介紹獨立同分布的中心極限定理。

獨立同分布的中心極限定理

設隨機變數$X_1,X_2,\ldots,X_n$相互獨立,服從同一分佈,且具有相同的數學期望,$E(X_k)=\mu$ 和相同的方差 $D(X_k)=\sigma^2 \neq 0$,則隨機變數:

$\large Y_n = \frac {\sum_{k=1}^{n} X_k - E(\sum_{k=1}^{n} X_k)}{\sqrt {D(\sum_{k=1}^{n} X_k)}} = \frac {\sum_{k=1}^{n} X_k - n\mu}{\sqrt{n}\sigma}$

在n很大時趨近於標準正態分佈。

當這些隨機變數不是服從同一分佈的時候,他們的和在n很大時仍然服從正態分佈,這就是正態分佈為什麼機率中特別重要的原因。在很多問題中,所考慮的隨機變數可以表示成很多獨立的隨機變數之和,例如,在任一指定時刻,一個城市的耗電量是大量使用者的耗電量的總和,一個物理實驗的測量誤差是許多觀察不到的,可加的微小誤差所合成的,他們往往近似的服從正態分佈。

 

引數估計

點估計

設總體X的分佈函式形式已知,但有一個或者多個未知引數,藉助於總體X的一個樣本來估計總體未知引數的值的問題稱為引數的點估計問題。常用的點估計方法有矩估計法和最大似然估計法。

例子:設總體 X 的均值 $\mu$ 和方差 $\sigma^2$均未知,已知$X_1,X_2,\ldots,X_n$ 是一個樣本,估計均值 $\mu$ 和方差 $\sigma^2$

 

矩估計

分別計算樣本矩和總體矩的前k階矩,利用樣本矩依機率收斂於總體矩的性質,構造相應的方程組,用方程組的解作為引數的估計量,這時候的估計量稱為矩估計量。

用矩估計法解上面的例子:

易知總體矩:

$\large \mu_1 = E(X) = \mu $

$\large \mu_2 = E(X^2) = D(X) + [E(X)]^2 = \mu + \sigma^2 $

計算樣本矩:

$A_1 = \frac {1}{n} \sum_{i=1}^n X_i = \overline {X} $

$A_2 = \frac {1}{n} \sum_{i=1}^n X_i^2 $

聯立方程組

$A_1 = \mu_1 $

$A_2 = \mu_2 $

解得:

$\large \hat{\mu} = \overline {X} $

$\large \hat {\sigma^2} = \frac {1}{n} \sum_{i=1}^{n}(X_i - \overline {X})^2$

 

最大似然估計(Maximum likelihood)

設總體X屬於離散性,其分佈律為 $P(X=x)=p(x;\theta)$,形式已知,但引數$\theta$未知。已知$X_1,X_2,\ldots,X_n$ 是一個樣本,則$X_1,X_2,\ldots,X_n$的聯合分佈律為:

$ \large \Pi_{i=1}^{n}p(x_i;\theta)$

設$x_1,x_2,\ldots,x_n$是相應於樣本$X_1,X_2,\ldots,X_n$的一個樣本值,已知樣本取到$x_1,x_2,\ldots,x_n$的機率為,也即事件 $\{ X_1=x_1, X_2 = x_2, \ldots, X_n = x_n\}$ 發生的機率為:

$\large L(\theta) = L(x_1,x_2,\ldots,x_n;\theta) = \Pi_{i=1}^{n}p(x_i;\theta) $

這一機率隨 $\theta$的變化而變化,是$\theta$的函式,稱為樣本的似然函式。

用使似然函式取得最大值的$\theta$作為原分佈律未知引數的估計值,稱為極大似然估計值。

當總體X屬於連續型時,考慮的是樣本$X_1,X_2,\ldots,X_n$ 落到$x_1,x_2,\ldots,x_n$ 的領域內的機率,和離散性的表達形式一樣。

用最大似然估計解上面的例子

X的機率密度為:

$\large f(x; \mu,\sigma^2) = \frac {1}{\sqrt {2 \pi \sigma^2}} e^{-\frac {(x-\mu)^2}{2 \sigma^2}}$

似然函式為:

$\large L(\mu, \sigma^2)=\Pi_{i=1}^{n} \frac {1}{\sqrt {2 \pi \sigma^2}} e^{-\frac {(x-\mu)^2}{2 \sigma^2}}$

取對數,然後分別對 $\mu$, $\sigma^2$求偏導數,並令偏導數為0,解得:

$\large \hat{\mu} = \overline {X} $

$\large \hat {\sigma^2} = \frac {1}{n} \sum_{i=1}^{n}(X_i - \overline {X})^2$

和用矩估計法求得的估計值完全相同。

 

估計量的評選標準

評價一個估計量的好壞,有很多常用的標準,這裡只介紹最常用的兩個標準,無偏性和有效性。

無偏性

如果估計量$\hat {\theta}=\hat {\theta}(X_1, X_2, \ldots, X_n)$的期望存在,而且有:

$\large E(\hat{\theta}) = \theta $

則稱$\hat {\theta}$為$\theta$的無偏估計量。

檢驗上面例子中的估計值:

$\large E(\hat {\sigma^2}) = \frac {n-1}{n} \sigma^2 \neq \sigma^2 $

所以估計量$\hat {\theta}$是有偏的。

 

有效性

設估計量$\hat {\theta_1}=\hat {\theta_1}(X_1, X_2, \ldots, X_n)$和估計量$\hat {\theta_2}=\hat {\theta_2}(X_1, X_2, \ldots, X_n)$都是$\theta$的無偏估計量,如果:

$\large D(\hat {\theta_1}) < D(\hat {\theta_2})$

則稱 $\hat {\theta_1} $比$\hat {\theta_2} $有效。

 

練習題

最後附上CMU的一套簡單測試題,可以用來你是否具備學習機器學習入門的數學基礎。

 

參考資料

[1]: 機率論與數理統計 高等教育出版社

[2]: Pattern Recognition and Machine Learning Chapter1, Chapter2, Appendix B

 

 

相關文章