本文主要介紹機率與數理統計中的一些常見的基本概念。
樣本空間
對於隨機試驗,儘管在每次試驗之前不能預知試驗的結果,但是試驗的所有可能結果集合是已知的,我們將隨機試驗E的所有可能的結果組成的集合稱為E的樣本空間,記為S。樣本空間的的元素,即E的每個可能結果,稱為樣本點。比如事件E:拋一枚硬幣,觀察正面H,反面T出現的情況,S={H,T}。
頻率(Frequency) 機率(Probability)
頻率描述了事件發生的頻繁程度,一般採用多次試驗的結果得到。
機率描述的是一次試驗中,事件發生的可能性大小。
如果試驗的次數足夠多,頻率將在一定意義下接近於機率。
條件機率(Conditional Probability)
設A,B是兩個事件,且P(A)>0,稱:
$\large P(B|A) = \frac {P(AB)}{P(A)}$
為事件A發生的條件下事件B發生的機率。
乘法定理(Product rule)
設P(A)>0,則:
$\large P(AB)=P(B|A)P(A)$
$\large P(ABC)=P(C|AB)P(B|A)P(A)$
這個定理也很容易推廣到多個事件的情況
加法定理(Sum rule)
設試驗E的樣本空間為S,A為E的事件,$B_1$,$B_2$,$\ldots$,$B_n$為S的一個劃分,且 $P(B_i)>0$,則:
$\large P(A) = P(A|B_1)P(B_1) + P(A|B_2)P(B_2) + \ldots + P(A|B_n)P(B_n) $
貝葉斯公式(Bayes' theorem)
$\large P(B_i|A) = \frac {P(A|B_i)P(B_i)}{\sum_{j=1}^{n}P(A|B_i)P(B_i)}$
先驗機率(Prior probability) 後驗機率(Posterior probability)
例子:某種裝置,調整良好時,產品合格率為90%,發生故障時,合格率為30%,每天早上開工時,裝置調整良好的機率為75%,已知早上第一件產品是合格品,問裝置調整良好的機率是多少?如果定義事件A為產品合格,事件B為裝置調整良好,顯然有P(A|B)=0.9,P(A|B')=0.3,P(B)=0.75,P(B')=0.25,要求的是P(B|A)。P(B)稱為先驗機率,是根據以往的經驗資料得到的,P(B|A)是得到了第一件產品為合格品之後對P(B)做的修正,稱為後驗機率,後驗機率讓我們對裝置的情況有了更進一步的瞭解。
獨立事件
如果A,B兩個事件滿足
$\large P(AB)=P(A)P(B)$
稱A,B為互相獨立的事件。這個式子也很容易推廣到多個事件的情況。
隨機變數
如果將隨機試驗的結果數量化,比如拋硬幣,用 1 代表正面,用 0 代表反面。如果將這個數量化的結果用一個變數X表示,X就是隨機變數,根據實驗結果的不同而不同。正規的定義是:設E是隨機試驗,樣本空間是S={e},如果對於每一個e屬於S,都有一個實數X(e)與之對應,這樣就得到一個定義在S上的單值函式X=X(e),稱為隨機變數。如果X能取到的值是有限個或者可列無限個,則X稱為離散性隨機變數。
機率分佈
如果離散性隨機變數X的所有取值為 $x_k(k=1,2,...)$,X取各個值得機率為:
$\large P\{ X=x_k \}=p_k$
稱為離散性隨機變數X的機率分佈或者分佈律。
分佈函式(Cumulative distribution fucntion)
對於非離散性隨機變數X,其可能的取值不能一一列舉出來,所以不能用像離散性隨機變數那樣用分佈律來嗎描述,為此引入隨機變數分佈函式的機率。
設X是一隨機變數,x是任意實數,函式:
$\large F(x) = P \{ X \leq x \}$
稱為X的分佈函式。雖然對離散性隨機變數,可以完全用分佈律來描述,但為了數學上的統一,定義了對離散性隨機變數和非離散性隨機變數都適用的分佈函式。
連續性隨機變數 機率密度(Probability density function)
如果隨機變數X的分佈函式是F(x),存在非負函式f(x),使得對於任意實數x有:
$\large F(x) = \int_{-\infty}^{x}f(t)dt $
則稱X為連續性隨機變數,f(x)稱為X的機率密度函式,簡稱機率密度。
機率密度具有以下性質:
(1)$\large f(x) \geq 0 $
(2)$\large \int_{-\infty}^{\infty}f(x)dx = 1$
(3)$\large P \{ x_1 < X \leq x_2 \} = F(x_2) - F(x_1) = \int_{x_1}^{x_2}f(x)dx $
期望(Expectation)
設離散性隨機變數X的分佈律為:
$\large P\{ X=x_k \}=p_k$
如果級數
$\large \sum_{k=1}^{\infty}x_k p_k $
絕對收斂,則稱為隨機變數X的期望。記作E(X)。
對於連續性隨機變數X的機率密度為f(x), 期望為:
$\large \int_{-\infty}^{\infty}xf(x)dx$
如果有函式Y=g(x),則Y的期望為:
$\large \int_{-\infty}^{\infty}g(x)f(x)dx$
期望又稱均值。
方差(Variance)
設X是一個隨機變數,如果$E\{[X-E(X)]^2\}$存在,則稱為X的方差,記為D(X)或者Var(X)。
方差可以按照公式 $D(X) = E(X^2) - [E(X)]^2 $計算。
方差開方$\sqrt {D(x)}$記為 $\sigma(X)$,稱為標準差或者均方差。
矩
設X是隨機變數
X的k階原點矩:$E(X^k)$
X的k階中心矩:$E\{ [X-E(X)]^k\}$
顯然X的期望是X的一階原點矩,方差是X的二階中心矩
常見機率分佈
0-1分佈 伯努利分佈(Bernoulli distribution)
離散性隨機變數的機率分佈,隨機變數X只能取0和1兩個值,它的分佈律是
$\large P\{ X=k \} = p^k(1-p)^{1-k}, k=0,1$
$E(X) = p$, $D(X) = p(1-p)$
二項分佈(Binomial distribution)
隨機變數X表示n重伯努利試驗中事件A發生的次數,例如重複拋n次硬幣,出現正面的次數。X的分佈律是:
$\large P\{ X=k \} = {n \choose k}p^k(1-p)^{n-k}, k=0,1,2,...,n$
$E(X) = np$, $D(X) = np(1-p)$
泊松分佈(Poisson distribution)
設隨機變數X所有的可能取值為0,1,2,...,而取各個值得機率為
$\large P\{ X=k \} = \frac {\lambda^k e^{-\lambda}}{k!}, k=0,1,2,...$
則稱X服從引數為 $\lambda$的泊松分佈。
$E(X) = \lambda$, $D(X) = \lambda$
在實際事例中,當一個隨機事件,以固定的平均瞬時速率λ(或稱密度)隨機且獨立地出現時,那麼這個事件在單位時間(面積或體積)內出現的次數或個數就近似地服從泊松分佈。因此,泊松分佈在管理科學、運籌學以及自然科學的某些問題中都佔有重要的地位。例如:
(1)某一服務設施在一定時間內到達的人數
(2)電話交換機接到呼叫的次數
(3)汽車站臺的候客人數
(4)機器出現的故障數
(5)自然災害發生的次數
(6)一本書一頁中的印刷錯誤
(7)顯微鏡下單位分割槽內的細菌分佈數
(8)某放射性物質單位時間發射出的粒子數
(9)某地區一天內丟失的郵件數
(10)某醫院一天內的急診人數
均勻分佈(Uniform distribution)
設連續性隨機變數X具有機率密度
$\large f(x) = \left \{ {\frac {1} {b-a}, \qquad a<x<b, \atop 0, \qquad \text{其他}} \right.$
則稱X在區間[a,b]上服從均勻分佈
$E(X)=\frac {a+b}{2}$, $D(X)=\frac {(b-a)^2}{12}$
正態分佈(Normal distribution, Gaussian distribution)
設連續性隨機變數X的機率密度為:
$\large f(x) = \frac {1}{\sqrt {2 \pi \sigma^2}} e^{-\frac {(x-\mu)^2}{2 \sigma^2}}, -\infty < x < \infty $
則稱X服從引數為 $\mu$, $\sigma$的正態分佈,正態分佈又叫高斯分佈。
$E(X)=\mu$, $D(X)=\sigma^2$
大數定理
隨機試驗中,隨著試驗次數的增加,人們發現事件發生的頻率逐漸穩定於某個常數(想想拋硬幣的例子),在實踐中,人們還認識到大量測量值的算數平均值也具有穩定性,這種穩定性就是大數定理的客觀背景。這裡我們介紹其中的一個大數定理:
辛欽定理
設隨機變數$X_1,X_2,\ldots,X_n$相互獨立,服從同一分佈(independent and identically distributed, i.i.d.),且具有相同的數學期望,$E(X_k)=\mu$,則:
$\large \lim_{n \to \infty} P \{ |\frac {1} {n} \sum_{k=1}^{n} X_k - \mu |<\varepsilon \} = 1$
中心極限定理
在客觀實際中有許多隨機變數,他們是由大量相互獨立的隨機因素的綜合影響形成的,而其中每一個個別因素在總的影響中所起的作用都是微小的,這種隨機變數往往近似地服從正態分佈,這種現象就是中心極限定理的客觀背景。這裡只介紹獨立同分布的中心極限定理。
獨立同分布的中心極限定理
設隨機變數$X_1,X_2,\ldots,X_n$相互獨立,服從同一分佈,且具有相同的數學期望,$E(X_k)=\mu$ 和相同的方差 $D(X_k)=\sigma^2 \neq 0$,則隨機變數:
$\large Y_n = \frac {\sum_{k=1}^{n} X_k - E(\sum_{k=1}^{n} X_k)}{\sqrt {D(\sum_{k=1}^{n} X_k)}} = \frac {\sum_{k=1}^{n} X_k - n\mu}{\sqrt{n}\sigma}$
在n很大時趨近於標準正態分佈。
當這些隨機變數不是服從同一分佈的時候,他們的和在n很大時仍然服從正態分佈,這就是正態分佈為什麼機率中特別重要的原因。在很多問題中,所考慮的隨機變數可以表示成很多獨立的隨機變數之和,例如,在任一指定時刻,一個城市的耗電量是大量使用者的耗電量的總和,一個物理實驗的測量誤差是許多觀察不到的,可加的微小誤差所合成的,他們往往近似的服從正態分佈。
引數估計
點估計
設總體X的分佈函式形式已知,但有一個或者多個未知引數,藉助於總體X的一個樣本來估計總體未知引數的值的問題稱為引數的點估計問題。常用的點估計方法有矩估計法和最大似然估計法。
例子:設總體 X 的均值 $\mu$ 和方差 $\sigma^2$均未知,已知$X_1,X_2,\ldots,X_n$ 是一個樣本,估計均值 $\mu$ 和方差 $\sigma^2$
矩估計
分別計算樣本矩和總體矩的前k階矩,利用樣本矩依機率收斂於總體矩的性質,構造相應的方程組,用方程組的解作為引數的估計量,這時候的估計量稱為矩估計量。
用矩估計法解上面的例子:
易知總體矩:
$\large \mu_1 = E(X) = \mu $
$\large \mu_2 = E(X^2) = D(X) + [E(X)]^2 = \mu + \sigma^2 $
計算樣本矩:
$A_1 = \frac {1}{n} \sum_{i=1}^n X_i = \overline {X} $
$A_2 = \frac {1}{n} \sum_{i=1}^n X_i^2 $
聯立方程組
$A_1 = \mu_1 $
$A_2 = \mu_2 $
解得:
$\large \hat{\mu} = \overline {X} $
$\large \hat {\sigma^2} = \frac {1}{n} \sum_{i=1}^{n}(X_i - \overline {X})^2$
最大似然估計(Maximum likelihood)
設總體X屬於離散性,其分佈律為 $P(X=x)=p(x;\theta)$,形式已知,但引數$\theta$未知。已知$X_1,X_2,\ldots,X_n$ 是一個樣本,則$X_1,X_2,\ldots,X_n$的聯合分佈律為:
$ \large \Pi_{i=1}^{n}p(x_i;\theta)$
設$x_1,x_2,\ldots,x_n$是相應於樣本$X_1,X_2,\ldots,X_n$的一個樣本值,已知樣本取到$x_1,x_2,\ldots,x_n$的機率為,也即事件 $\{ X_1=x_1, X_2 = x_2, \ldots, X_n = x_n\}$ 發生的機率為:
$\large L(\theta) = L(x_1,x_2,\ldots,x_n;\theta) = \Pi_{i=1}^{n}p(x_i;\theta) $
這一機率隨 $\theta$的變化而變化,是$\theta$的函式,稱為樣本的似然函式。
用使似然函式取得最大值的$\theta$作為原分佈律未知引數的估計值,稱為極大似然估計值。
當總體X屬於連續型時,考慮的是樣本$X_1,X_2,\ldots,X_n$ 落到$x_1,x_2,\ldots,x_n$ 的領域內的機率,和離散性的表達形式一樣。
用最大似然估計解上面的例子
X的機率密度為:
$\large f(x; \mu,\sigma^2) = \frac {1}{\sqrt {2 \pi \sigma^2}} e^{-\frac {(x-\mu)^2}{2 \sigma^2}}$
似然函式為:
$\large L(\mu, \sigma^2)=\Pi_{i=1}^{n} \frac {1}{\sqrt {2 \pi \sigma^2}} e^{-\frac {(x-\mu)^2}{2 \sigma^2}}$
取對數,然後分別對 $\mu$, $\sigma^2$求偏導數,並令偏導數為0,解得:
$\large \hat{\mu} = \overline {X} $
$\large \hat {\sigma^2} = \frac {1}{n} \sum_{i=1}^{n}(X_i - \overline {X})^2$
和用矩估計法求得的估計值完全相同。
估計量的評選標準
評價一個估計量的好壞,有很多常用的標準,這裡只介紹最常用的兩個標準,無偏性和有效性。
無偏性
如果估計量$\hat {\theta}=\hat {\theta}(X_1, X_2, \ldots, X_n)$的期望存在,而且有:
$\large E(\hat{\theta}) = \theta $
則稱$\hat {\theta}$為$\theta$的無偏估計量。
檢驗上面例子中的估計值:
$\large E(\hat {\sigma^2}) = \frac {n-1}{n} \sigma^2 \neq \sigma^2 $
所以估計量$\hat {\theta}$是有偏的。
有效性
設估計量$\hat {\theta_1}=\hat {\theta_1}(X_1, X_2, \ldots, X_n)$和估計量$\hat {\theta_2}=\hat {\theta_2}(X_1, X_2, \ldots, X_n)$都是$\theta$的無偏估計量,如果:
$\large D(\hat {\theta_1}) < D(\hat {\theta_2})$
則稱 $\hat {\theta_1} $比$\hat {\theta_2} $有效。
練習題
最後附上CMU的一套簡單測試題,可以用來你是否具備學習機器學習入門的數學基礎。
參考資料
[1]: 機率論與數理統計 高等教育出版社
[2]: Pattern Recognition and Machine Learning Chapter1, Chapter2, Appendix B