數學基礎之機率

Lei Jun發表於2014-11-04

本文主要介紹機率與數理統計中的一些常見的基本概念。

樣本空間

對於隨機試驗，儘管在每次試驗之前不能預知試驗的結果，但是試驗的所有可能結果集合是已知的，我們將隨機試驗E的所有可能的結果組成的集合稱為E的樣本空間，記為S。樣本空間的的元素，即E的每個可能結果，稱為樣本點。比如事件E：拋一枚硬幣，觀察正面H，反面T出現的情況，S={H，T}。

頻率(Frequency) 機率(Probability)

頻率描述了事件發生的頻繁程度，一般採用多次試驗的結果得到。

機率描述的是一次試驗中，事件發生的可能性大小。

如果試驗的次數足夠多，頻率將在一定意義下接近於機率。

條件機率(Conditional Probability)

設A，B是兩個事件，且P(A)>0，稱：

$\large P(B|A) = \frac {P(AB)}{P(A)}$

為事件A發生的條件下事件B發生的機率。

乘法定理（Product rule）

設P(A)>0，則：

$\large P(AB)=P(B|A)P(A)$

$\large P(ABC)=P(C|AB)P(B|A)P(A)$

這個定理也很容易推廣到多個事件的情況

加法定理(Sum rule)

設試驗E的樣本空間為S，A為E的事件，$B_1$，$B_2$，$\ldots$，$B_n$為S的一個劃分，且 $P(B_i)>0$，則：

$\large P(A) = P(A|B_1)P(B_1) + P(A|B_2)P(B_2) + \ldots + P(A|B_n)P(B_n) $

貝葉斯公式(Bayes' theorem)

$\large P(B_i|A) = \frac {P(A|B_i)P(B_i)}{\sum_{j=1}^{n}P(A|B_i)P(B_i)}$

先驗機率(Prior probability) 後驗機率(Posterior probability)

例子：某種裝置，調整良好時，產品合格率為90%，發生故障時，合格率為30%，每天早上開工時，裝置調整良好的機率為75%，已知早上第一件產品是合格品，問裝置調整良好的機率是多少？如果定義事件A為產品合格，事件B為裝置調整良好，顯然有P(A|B)=0.9，P(A|B')=0.3，P(B)=0.75，P(B')=0.25，要求的是P(B|A)。P(B)稱為先驗機率，是根據以往的經驗資料得到的，P(B|A)是得到了第一件產品為合格品之後對P(B)做的修正，稱為後驗機率，後驗機率讓我們對裝置的情況有了更進一步的瞭解。

獨立事件

如果A，B兩個事件滿足

$\large P(AB)=P(A)P(B)$

稱A，B為互相獨立的事件。這個式子也很容易推廣到多個事件的情況。

隨機變數

如果將隨機試驗的結果數量化，比如拋硬幣，用 1 代表正面，用 0 代表反面。如果將這個數量化的結果用一個變數X表示，X就是隨機變數，根據實驗結果的不同而不同。正規的定義是：設E是隨機試驗，樣本空間是S={e}，如果對於每一個e屬於S，都有一個實數X(e)與之對應，這樣就得到一個定義在S上的單值函式X=X(e)，稱為隨機變數。如果X能取到的值是有限個或者可列無限個，則X稱為離散性隨機變數。

機率分佈

如果離散性隨機變數X的所有取值為 $x_k(k=1,2,...)$，X取各個值得機率為：

$\large P\{ X=x_k \}=p_k$

稱為離散性隨機變數X的機率分佈或者分佈律。

分佈函式(Cumulative distribution fucntion)

對於非離散性隨機變數X，其可能的取值不能一一列舉出來，所以不能用像離散性隨機變數那樣用分佈律來嗎描述，為此引入隨機變數分佈函式的機率。

設X是一隨機變數，x是任意實數，函式：

$\large F(x) = P \{ X \leq x \}$

稱為X的分佈函式。雖然對離散性隨機變數，可以完全用分佈律來描述，但為了數學上的統一，定義了對離散性隨機變數和非離散性隨機變數都適用的分佈函式。

連續性隨機變數機率密度(Probability density function)

如果隨機變數X的分佈函式是F(x)，存在非負函式f(x)，使得對於任意實數x有：

$\large F(x) = \int_{-\infty}^{x}f(t)dt $

則稱X為連續性隨機變數，f(x)稱為X的機率密度函式，簡稱機率密度。

機率密度具有以下性質：

（1）$\large f(x) \geq 0 $

（2）$\large \int_{-\infty}^{\infty}f(x)dx = 1$

（3）$\large P \{ x_1 < X \leq x_2 \} = F(x_2) - F(x_1) = \int_{x_1}^{x_2}f(x)dx $

期望(Expectation)

設離散性隨機變數X的分佈律為：

$\large P\{ X=x_k \}=p_k$

如果級數

$\large \sum_{k=1}^{\infty}x_k p_k $

絕對收斂，則稱為隨機變數X的期望。記作E(X)。

對於連續性隨機變數X的機率密度為f(x), 期望為：

$\large \int_{-\infty}^{\infty}xf(x)dx$

如果有函式Y=g(x)，則Y的期望為：

$\large \int_{-\infty}^{\infty}g(x)f(x)dx$

期望又稱均值。

方差(Variance)

設X是一個隨機變數，如果$E\{[X-E(X)]^2\}$存在，則稱為X的方差，記為D(X)或者Var(X)。

方差可以按照公式 $D(X) = E(X^2) - [E(X)]^2 $計算。

方差開方$\sqrt {D(x)}$記為 $\sigma(X)$，稱為標準差或者均方差。

矩

設X是隨機變數

X的k階原點矩：$E(X^k)$

X的k階中心矩：$E\{ [X-E(X)]^k\}$

顯然X的期望是X的一階原點矩，方差是X的二階中心矩

常見機率分佈

0-1分佈伯努利分佈(Bernoulli distribution)

離散性隨機變數的機率分佈，隨機變數X只能取0和1兩個值，它的分佈律是

$\large P\{ X=k \} = p^k(1-p)^{1-k}, k=0,1$

$E(X) = p$, $D(X) = p(1-p)$

二項分佈(Binomial distribution)

隨機變數X表示n重伯努利試驗中事件A發生的次數，例如重複拋n次硬幣，出現正面的次數。X的分佈律是：

$\large P\{ X=k \} = {n \choose k}p^k(1-p)^{n-k}, k=0,1,2,...,n$

$E(X) = np$, $D(X) = np(1-p)$

泊松分佈(Poisson distribution)

設隨機變數X所有的可能取值為0,1,2,...,而取各個值得機率為

$\large P\{ X=k \} = \frac {\lambda^k e^{-\lambda}}{k!}, k=0,1,2,...$

則稱X服從引數為 $\lambda$的泊松分佈。

$E(X) = \lambda$, $D(X) = \lambda$

在實際事例中，當一個隨機事件，以固定的平均瞬時速率λ（或稱密度）隨機且獨立地出現時，那麼這個事件在單位時間（面積或體積）內出現的次數或個數就近似地服從泊松分佈。因此，泊松分佈在管理科學、運籌學以及自然科學的某些問題中都佔有重要的地位。例如：

（1）某一服務設施在一定時間內到達的人數

（2）電話交換機接到呼叫的次數

（3）汽車站臺的候客人數

（4）機器出現的故障數

（5）自然災害發生的次數

（6）一本書一頁中的印刷錯誤

（7）顯微鏡下單位分割槽內的細菌分佈數

（8）某放射性物質單位時間發射出的粒子數

（9）某地區一天內丟失的郵件數

（10）某醫院一天內的急診人數

均勻分佈(Uniform distribution)

設連續性隨機變數X具有機率密度

$\large f(x) = \left \{ {\frac {1} {b-a}, \qquad a<x<b, \atop 0, \qquad \text{其他}} \right.$

則稱X在區間[a,b]上服從均勻分佈

$E(X)=\frac {a+b}{2}$, $D(X)=\frac {(b-a)^2}{12}$

正態分佈(Normal distribution, Gaussian distribution)

設連續性隨機變數X的機率密度為：

$\large f(x) = \frac {1}{\sqrt {2 \pi \sigma^2}} e^{-\frac {(x-\mu)^2}{2 \sigma^2}}, -\infty < x < \infty $

則稱X服從引數為 $\mu$, $\sigma$的正態分佈，正態分佈又叫高斯分佈。

$E(X)=\mu$, $D(X)=\sigma^2$

大數定理

隨機試驗中，隨著試驗次數的增加，人們發現事件發生的頻率逐漸穩定於某個常數（想想拋硬幣的例子），在實踐中，人們還認識到大量測量值的算數平均值也具有穩定性，這種穩定性就是大數定理的客觀背景。這裡我們介紹其中的一個大數定理：

辛欽定理

設隨機變數$X_1,X_2,\ldots,X_n$相互獨立，服從同一分佈(independent and identically distributed, i.i.d.)，且具有相同的數學期望，$E(X_k)=\mu$，則：

$\large \lim_{n \to \infty} P \{ |\frac {1} {n} \sum_{k=1}^{n} X_k - \mu |<\varepsilon \} = 1$

中心極限定理

在客觀實際中有許多隨機變數，他們是由大量相互獨立的隨機因素的綜合影響形成的，而其中每一個個別因素在總的影響中所起的作用都是微小的，這種隨機變數往往近似地服從正態分佈，這種現象就是中心極限定理的客觀背景。這裡只介紹獨立同分布的中心極限定理。

獨立同分布的中心極限定理

設隨機變數$X_1,X_2,\ldots,X_n$相互獨立，服從同一分佈，且具有相同的數學期望，$E(X_k)=\mu$ 和相同的方差 $D(X_k)=\sigma^2 \neq 0$，則隨機變數：

$\large Y_n = \frac {\sum_{k=1}^{n} X_k - E(\sum_{k=1}^{n} X_k)}{\sqrt {D(\sum_{k=1}^{n} X_k)}} = \frac {\sum_{k=1}^{n} X_k - n\mu}{\sqrt{n}\sigma}$

在n很大時趨近於標準正態分佈。

當這些隨機變數不是服從同一分佈的時候，他們的和在n很大時仍然服從正態分佈，這就是正態分佈為什麼機率中特別重要的原因。在很多問題中，所考慮的隨機變數可以表示成很多獨立的隨機變數之和，例如，在任一指定時刻，一個城市的耗電量是大量使用者的耗電量的總和，一個物理實驗的測量誤差是許多觀察不到的，可加的微小誤差所合成的，他們往往近似的服從正態分佈。

引數估計

點估計

設總體X的分佈函式形式已知，但有一個或者多個未知引數，藉助於總體X的一個樣本來估計總體未知引數的值的問題稱為引數的點估計問題。常用的點估計方法有矩估計法和最大似然估計法。

例子：設總體 X 的均值 $\mu$ 和方差 $\sigma^2$均未知，已知$X_1,X_2,\ldots,X_n$ 是一個樣本，估計均值 $\mu$ 和方差 $\sigma^2$

矩估計

分別計算樣本矩和總體矩的前k階矩，利用樣本矩依機率收斂於總體矩的性質，構造相應的方程組，用方程組的解作為引數的估計量，這時候的估計量稱為矩估計量。

用矩估計法解上面的例子：

易知總體矩：

$\large \mu_1 = E(X) = \mu $

$\large \mu_2 = E(X^2) = D(X) + [E(X)]^2 = \mu + \sigma^2 $

計算樣本矩：

$A_1 = \frac {1}{n} \sum_{i=1}^n X_i = \overline {X} $

$A_2 = \frac {1}{n} \sum_{i=1}^n X_i^2 $

聯立方程組

$A_1 = \mu_1 $

$A_2 = \mu_2 $

解得：

$\large \hat{\mu} = \overline {X} $

$\large \hat {\sigma^2} = \frac {1}{n} \sum_{i=1}^{n}(X_i - \overline {X})^2$

最大似然估計(Maximum likelihood)

設總體X屬於離散性，其分佈律為 $P(X=x)=p(x;\theta)$，形式已知，但引數$\theta$未知。已知$X_1,X_2,\ldots,X_n$ 是一個樣本，則$X_1,X_2,\ldots,X_n$的聯合分佈律為：

$ \large \Pi_{i=1}^{n}p(x_i;\theta)$

設$x_1,x_2,\ldots,x_n$是相應於樣本$X_1,X_2,\ldots,X_n$的一個樣本值，已知樣本取到$x_1,x_2,\ldots,x_n$的機率為，也即事件 $\{ X_1=x_1, X_2 = x_2, \ldots, X_n = x_n\}$ 發生的機率為：

$\large L(\theta) = L(x_1,x_2,\ldots,x_n;\theta) = \Pi_{i=1}^{n}p(x_i;\theta) $

這一機率隨 $\theta$的變化而變化，是$\theta$的函式，稱為樣本的似然函式。

用使似然函式取得最大值的$\theta$作為原分佈律未知引數的估計值，稱為極大似然估計值。

當總體X屬於連續型時，考慮的是樣本$X_1,X_2,\ldots,X_n$ 落到$x_1,x_2,\ldots,x_n$ 的領域內的機率，和離散性的表達形式一樣。

用最大似然估計解上面的例子

X的機率密度為：

$\large f(x; \mu,\sigma^2) = \frac {1}{\sqrt {2 \pi \sigma^2}} e^{-\frac {(x-\mu)^2}{2 \sigma^2}}$

似然函式為：

$\large L(\mu, \sigma^2)=\Pi_{i=1}^{n} \frac {1}{\sqrt {2 \pi \sigma^2}} e^{-\frac {(x-\mu)^2}{2 \sigma^2}}$

取對數，然後分別對 $\mu$, $\sigma^2$求偏導數，並令偏導數為0，解得：

$\large \hat{\mu} = \overline {X} $

$\large \hat {\sigma^2} = \frac {1}{n} \sum_{i=1}^{n}(X_i - \overline {X})^2$

和用矩估計法求得的估計值完全相同。

估計量的評選標準

評價一個估計量的好壞，有很多常用的標準，這裡只介紹最常用的兩個標準，無偏性和有效性。

無偏性

如果估計量$\hat {\theta}=\hat {\theta}(X_1, X_2, \ldots, X_n)$的期望存在，而且有：

$\large E(\hat{\theta}) = \theta $

則稱$\hat {\theta}$為$\theta$的無偏估計量。

檢驗上面例子中的估計值：

$\large E(\hat {\sigma^2}) = \frac {n-1}{n} \sigma^2 \neq \sigma^2 $

所以估計量$\hat {\theta}$是有偏的。

有效性

設估計量$\hat {\theta_1}=\hat {\theta_1}(X_1, X_2, \ldots, X_n)$和估計量$\hat {\theta_2}=\hat {\theta_2}(X_1, X_2, \ldots, X_n)$都是$\theta$的無偏估計量，如果：

$\large D(\hat {\theta_1}) < D(\hat {\theta_2})$

則稱 $\hat {\theta_1} $比$\hat {\theta_2} $有效。

練習題

最後附上CMU的一套簡單測試題，可以用來你是否具備學習機器學習入門的數學基礎。

參考資料

[1]: 機率論與數理統計高等教育出版社

[2]: Pattern Recognition and Machine Learning Chapter1, Chapter2, Appendix B

機率圖模型基礎
2024-05-08
模型
數學基礎
2024-08-19
Android面試之——數學基礎知識
2018-03-24
Android面試
AI數學基礎之:確定圖靈機和非確定圖靈機
2021-04-12
AI圖靈
隨機梯度下降法的數學基礎
2023-01-18
隨機梯度
AI數學基礎之:P、NP、NPC問題
2021-04-28
AI
AI數學基礎之:概率和上帝視角
2021-03-05
AI
[java基礎]之變數
2021-02-07
Java變數
人工智慧必備數學基礎：高等數學基礎（2）
2020-12-22
人工智慧
人工智慧必備數學基礎：高等數學基礎（1）
2020-12-16
人工智慧
opencv學習之基礎
2022-05-11
OpenCV
Go基礎學習記錄之反射(reflect)機制
2019-02-16
Go反射
機器學習數學複習 - 1.概率論基礎
2021-06-28
機器學習
fixtrue基礎之scope引數
2022-08-05
fixtrue基礎之name引數
2022-08-09
fixtrue基礎之autouse引數
2022-08-10
fixtrue基礎之ids引數
2022-08-16
離散數學（數論基礎）
2021-06-24
零基礎學習 Python 之數字與運算
2018-11-29
Python
《機器學習數學基礎》已開源，附完整下載！
2020-02-04
機器學習
深度學習基礎之 Dropout
2020-04-06
深度學習
【Elasticsearch學習】之基礎概念
2020-05-03
Elasticsearch
Go 之基礎速學 (一)
2020-04-23
Go
pandas學習之Python基礎
2020-12-16
Python
數學基礎講解-6
2024-09-17
數學基礎講解-05
2024-09-15
數學基礎講解-02
2024-09-07
數學基礎講解-04
2024-09-08
資訊保安數學基礎
2024-06-20
Python零基礎學習筆記（九）——隨機數
2019-01-16
Python筆記隨機
計算機基礎:離散數學和完備性
2020-11-25
計算機
人工智慧數學基礎----導數
2018-06-10
人工智慧
Java 基礎之算數運算子
2018-07-20
Java
JAVA基礎之-引數傳遞
2024-08-19
Java
Linux基礎之Shell與變數
2021-04-01
Linux變數
人工智慧必備數學基礎：線性代數基礎（2）
2021-01-16
人工智慧
【機器學習基礎】神經網路/深度學習基礎
2021-11-05
機器學習神經網路深度學習
大學計算機基礎
2020-11-08
計算機
Java基礎之反射機制（續）
2019-01-17
Java反射