伯努利試驗
伯努利試驗(Bernoulli experiment)是在同樣的條件下重複地、相互獨立地進行的一種隨機試驗,其特點是該隨機試驗只有兩種可能結果:發生或者不發生。
我們假設該項試驗獨立重複地進行了 $n$ 次,那麼就稱這一系列重複獨立的隨機試驗為 $n$ 重伯努利試驗,或稱為伯努利概型。單個伯努利試驗是沒有多大意義的,然而,當我們反覆進行伯努利試驗,去觀察這些試驗有多少是成功的,多少是失敗的,事情就變得有意義了,這些累計記錄包含了很多潛在的非常有用的資訊。
如果無窮隨機變數序列 $X_{1}, X_{2}, \ldots$ 是獨立同分布 $(i. i. d . )$ 的,而且每個隨機變數 $X_{i}$ 都服從引數為 $\mathrm{p}$ 的伯努利分佈, 那麼 隨機變數 $X_{1}, X_{2}, \ldots$ 就形成引數為 $p$ 的一系列伯努利試驗。同樣,如果 $n$ 個隨機變數 $X_{1}, X_{2}, \ldots, X_{n}$ 獨立同分布,並且都服從引數為 $p$ 的伯努利分佈,則隨機變數 $X_{1}, X_{2}, \ldots, X_{n}$ 形成引數為 $p$ 的 $n$ 重伯努利試驗。
下面舉幾個例子加以說明,假定重複拋擲一枚均勻硬幣,如果在第 $i$ 次拋擲中出現正面,令 $X_{i}=1$ ;如果出現反面$X_{i}=0$,那麼,隨機變數 $X_{1}, X_{2}, \ldots$ 就形成引數為 $p=\frac{1}{2}$ 的一系列伯努利試驗,同樣,假定由一個特定機器生產的零件中 $10 \%$ 是有缺陷的,隨機抽取 $n$ 個進行觀測,如果第 1 個零件有缺陷,令 $X_{i}=1$ ; 如果沒有缺陷,令 $X_{i}=0, i=1,2, \ldots, n$ , 那麼,隨機變數 $X_{1}, X_{2}, \ldots, X_{n} $ 就形成引數為 $p=\frac{1}{10}$ 的 $n$ 重伯努利試驗。
離散分佈
二項分佈
定義:在 $n$ 次獨立重複的伯努利試驗中,設每次試驗中事件 $A$ 發生的概率為 $p$。用 $X$ 表示 $n$ 重伯努利試驗中事件 $A$ 發生的次數,則 $X$ 的可能取值為 $0,1,…,n$ ,且對每一個 $k$($0≤k≤n$),事件 ${X=k}$ 即為 “ $n$ 次試驗中事件 $A$ 恰好發生 $k$ 次”,隨機變數 $X$ 的離散概率分佈即為二項分佈(Binomial Distribution)。
記 $X$ 為 $n$ 重伯努利試驗中成功的事件 (記為 $A$ ) 的次數,則 $X=0,1,2, \cdots, n$ 。 $X$ 服從二項分佈,記 $p$ 為事件 $A$ 發生的概率, $X$ 的分佈列為:
$P\{X=k\}=\left(\begin{array}{l}n \\k\end{array}\right) p^{k}(1-p)^{n-k}, \quad k=0,1, \cdots, n$
記做
$X \sim b(n, p)$
或:$X \sim B(n, p)$
符號“~”讀作“服從於”,該記號表示隨機變數 $X$ 服從引數為 $n,p$ 的二項分佈。
數學期望:$np$
方差:$np(1-p)$
舉例:
1. 設射手命中率為 $0.8$ ,則射擊 $n$ 次, 命中的次數 $X \sim b(n, 0.8)$ .
2. 已知人群中色盲率為 $p$ , 在人群中隨機調查50個人,則其中色盲患者 $ X \sim b(50, p)$ .
3. 某藥品的有效率為 $ 0.9$ , 今有 $10$ 人服用,則服藥有效的人數 $ X \sim b(10,0.9)$ .
4.......
兩點分佈
兩點分佈:是一種當 $n=1$ 時的特殊的二項分佈,又名 $0-1$分佈,伯努利分佈,用來描述一次伯努利試驗中成功的次數 $X $,其中$X=0,1$ 。$X$ 服從兩點分佈, 分佈列為:
$P(X=x)=p^{x}(1-p)^{1-x}, \quad x=0,1 $
或表示為:
$\begin{array}{c|c|c}\mathrm{X} & 0 & 1 \\\hline P & 1-p & p\end{array}$
其中 $p=P(X=1)$ 為事件成功的概率。
舉例:
1. 小明投籃命中率為 $ 0.8$ ,投籃一次,其命中的次數 $ X \sim b(1,0.8)$ ;
2. 彩票中獎率為 $ 0.0001$ , 小明購買一張彩票, 其中獎的次數 $ X \sim b(1,0.0001) $;
3. 不會做的單項選擇題做對的概率為 $ 0.25$ ,隨機選擇一個選項, 做對的次數 $ X \sim b(1,0.25) $;
4. $ \ldots \ldots $
兩點分佈是特殊的二項分佈, 在二項分佈數學期望和方差的公式中取 $n=1$ 得到兩點分佈:
數學期望: $p$
方差: $p(1-p)$
二項分佈與兩點分佈的關係:若有一列獨立同分佈於 $ b(1, p)$ 的隨機變數序列 $ \left\{X_{i}\right\}_{i=1}^{n}$ , 則其和:
$X_{1}+X_{2}+\cdots+X_{n}=\sum_{i=1}^{n} X_{i} \sim b(n, p)$
這個結論表明兩點分佈具有可加性,且對於服從 $ b(n, p)$ 的隨機變數 $ X$ , 可看做由 $ n$ 個獨立 同分佈於 $ b(1, p)$ 的隨機變數 $ X_{i}$ 的和。
泊松分佈
Poisson分佈,是一種統計與概率學裡常見到的離散概率分佈,由法國數學家西莫恩·德尼·泊松(Siméon-Denis Poisson)在1838年時發表。
泊松分佈的概率函式為:
$P(X=k)=\frac{\lambda^{k}}{k !} \mathrm{e}^{-\lambda}, \quad k=0,1,2, \cdots$
泊松分佈的引數 $\lambda$ 是單位時間(或單位面積)內隨機事件的平均發生次數。泊松分佈適合於描述單位時間內隨機事件發生的次數。
記 $X \sim P(\lambda)$,常與單位時間、單位面積、單位體積上的計數過程相聯絡。
數學期望: $\lambda$
方差: $\lambda$
這裡數學期望為 $ \lambda$ 是指 $ X$ 的均值為 $ \lambda$ 。譬如對於應用舉例 1,某段時間內,來到某商場的顧客數平均而言是 $\lambda$ 。其他的應用類似。
舉例:
1. 某時間段內,來到某商場的顧客數;
2. 單位時間內,某網站的點選量;
3. 一平方米內玻璃上的氣泡數;
4. $ \ldots \ldots $
均勻分佈
若隨機變數 $X$ 的密度函式為:
$p(x)=\left\{\begin{array}{lc}\frac{1}{b-a}, & a<x<b \\0, & \text { 其他. }\end{array}\right.$
稱 $ X$ 服從區間 $ (a, b)$ 上的均勻分佈,記作 $ X \sim U(a, b) $,其分佈函式:
$F(x)=\left\{\begin{array}{ll}0, & x<a \\\frac{x-a}{b-a}, & a \leq x<b \\1, & x \geq b\end{array}\right.$
均勻分佈又稱作平頂分佈(因其概率密度為常值函式)。
數學期望: $\frac{a+b}{2} $
方差: $ \frac{(b-a)^{2}}{12}$
超幾何分佈
有 $N$ 件產品,其中有 $M$ 件不合格品。若從中不放回地隨機抽取 $n$ 件,則其中含有的不合格品的件數 $X$ 服從超幾何分佈,分佈列為:
$P(X=k)=\frac{C_{M}^{k} C_{N-M}^{n-k}}{C_{N}^{n}}=\frac{\left(\begin{array}{c}M \\k\end{array}\right)\left(\begin{array}{c}N-M \\n-k\end{array}\right)}{\left(\begin{array}{l}N \\n\end{array}\right)}, \quad k=0,1, \cdots, r$。
記為 $X \sim h(n, N, M)$。其中 $r=\min \{M, n\}$,且 $M \leqslant N, n \leqslant N$ 。$n, N, M$ 均為正整數。
舉例:從有 10 件不合格品的 100 件產品中隨機抽取 5 件,則抽取的產品中不合格品數 $X \sim h(5,100,10) $。
數學期望:$n \bullet \frac{M}{N}$
方差:$D(X)=\frac{n M}{N}\left(1-\frac{M}{N}\right) \frac{N-n}{N-1}$
超幾何分佈和二項分佈的聯絡
(1) 在超幾何分佈中,當 $N \rightarrow+\infty$ 時, $\frac{M}{N} \rightarrow P$ (二項分佈中的 $\mathrm{p}$) 。
(2) 當 $ N \rightarrow+\infty$ 時,超幾何分佈的數學期望
$E X=\frac{n M}{N} \rightarrow n p=E X$
(3) 當 $ N \rightarrow+\infty$ 時,超幾何分佈的方差 $ D X=n p(1-p)$ (二項分佈的方差) 。
(4) 當 $ N \rightarrow+\infty$ 時,超幾何分佈近似為二項分佈。
幾何分佈
在伯努利試驗序列中,記每次試驗中事件 $A$ 發生的概率為 $p$,如果 $X$ 為事件 $A$ 首次出現時的試驗次數。詳細地說,是:前 $k-1$ 次皆失敗,第 $k$ 次成功的概率。則 $X=1,2, \cdots$ 。$X$ 服從幾何分佈,分佈列為:
$P(X=k)=(1-p)^{k-1} p, \quad k=1,2, \cdots $
記作 $ X \sim G e(p) $ 。
舉例:
1. 某產品的不合格率為 0.05 , 首次查到不合格品的檢查次數 $ X \sim G e(0.05) $
2. 某射手的命中率為 0.8 , 首次命中的射擊次數 $ X \sim G e(0.8) $
3. 擲一顆骰子,首次出現六點的投鄭次數 $ X \sim G e\left(\frac{1}{6}\right) $
4. .....
數學期望: $ \frac{1}{p} $
方差: $ \frac{1-p}{p^{2}} $
幾何分佈的無記憶性:
設 $X \sim G e(p)$ ,對任意正整數 $m, n$ ,有:
$P(X>m+n \mid X>m)=P(X>n)$
該性質表明,在前 $m$ 次試驗中 $A$ 沒有出現的條件下,則在接下去的 $n$ 次試驗中 $A$ 仍末出現 的概率只與 $n$ 有關,而與以前的 $m$ 次試驗無關,似乎忘記了前 $m$ 次試驗結果, 這就是無記憶 性。
負二項分佈
在伯努利試驗序列中,記每次試驗中事件 $A $ 發生的概率為 $p$ ,如果 $X$ 為事件 $A$ 第 $r$ 次出 現時的試驗次數,則 $X$ 的可能取值為 $r, r+1, \cdots, r+m, \cdots$ , 稱 $X$ 服從負二項分佈或巴斯卡分佈,其分佈列為:
$P(X=k)=\left(\begin{array}{l}k-1 \\r-1\end{array}\right) p^{r}(1-p)^{k-r}, \quad k=r, r+1, \cdots$
記作: $X \sim N b(r, p)$ , 當 $r=1$ 時即為幾何分佈,即幾何分佈是特殊的負二項分佈。從二項分佈和負二項分佈的定義中看出,二項分佈是伯努利試驗次數 ($n$) 固定,事件 $A$ 成功的次數 $X$ 在 $0 \sim n$ 中取值;而負二項分佈是事件 $A$ 成功的次數 ( $r$ ) 固定,伯努利實驗次數 $X$ 在 $r, r+1, \cdots$ 中取值,可見負二項分佈的 "負" 字的由來。
數學期望: $\frac{r}{p} $
方差: $ \frac{r(1-p)}{p^{2}}$
從負二項分佈和幾何分佈的數學期望和方差的關係可知,類比二項分佈與兩點分佈的關係,可以得 到下面的結論:
若有一列獨立同分佈於 $ G e(p)$ 的隨機變數序列 $ \left\{X_{i}\right\}_{i=1}^{n}$ , 則其和:
$X_{1}+X_{2}+\cdots+X_{r}=\sum \limits _{i=1}^{r} X_{i} \sim N b(r, p)$
這並不是說明幾何分佈具有可加性,因為可加性要求服從該類分佈的隨機變數的和仍服從該類分佈,但是服從幾何分佈的隨機變數的和服從負二項分佈,這個概念要特別注意。上述結論只能說明 對於服從 $ Nb(r, p)$ 的隨機變數 $ X$ ,可看做由 $ r$ 個獨立同分佈於 $ G e(p)$ 的隨機變數 $ X_{i}$ 的和。
常用連續分佈
正態分佈
正態分佈(Normal distribution),也稱“常態分佈”,又名高斯分佈(Gaussian distribution),最早由棣莫弗(Abraham de Moivre)在求二項分佈的漸近公式中得到。C.F.高斯在研究測量誤差時從另一個角度匯出了它。P.S.拉普拉斯和高斯研究了它的性質。
若隨機變數 $X$ 的密度函式為:
$p(x)=\frac{1}{\sqrt{2 \pi} \sigma} \mathrm{e}^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}}, \quad-\infty<x<\infty$
則稱 $X$ 服從正態分佈,稱 $X$ 為正態變數。記 $X \sim N\left(\mu, \sigma^{2}\right) $。其中 $\mu$ 為位置引數,用於控制曲線在 $x$ 軸上的位置; $\sigma$ 為尺度引數,用於控制曲線的形狀。
正態曲線呈鍾型,兩頭低,中間高,左右對稱因其曲線呈鐘形,因此人們又經常稱之為鐘形曲線。
分佈函式:
$F(x)=\int_{-\infty}^{x} p(t) \mathrm{d} t=\int_{-\infty}^{x} \frac{1}{\sqrt{2 \pi} \sigma} \mathrm{e}^{-\frac{(t-\mu)^{2}}{2 \sigma^{2}}} \mathrm{~d} t$
數學期望:$\mu$
方差: $\sigma^{2} $
稱 $ \mu=0, \sigma^{2}=1$ 時的正態分佈為標準正態分佈,其密度函式和分佈函式分別為:
$\begin{array}{l}\varphi(x)=\frac{1}{\sqrt{2 \pi}} \mathrm{e}^{-\frac{x^{2}}{2}} \\\Phi(x)=\int_{-\infty}^{x} \varphi(t) \mathrm{d} t=\int_{-\infty}^{x} \frac{1}{\sqrt{2 \pi}} \mathrm{e}^{-\frac{t^{2}}{2}} \mathrm{~d} t\end{array}$
任何一個正態變數均可以通過標準化轉化為標準正態變數,即若 $X \sim N\left(\mu, \sigma^{2}\right) $,則:
$X^{*}=\frac{X-\mu}{\sigma} \sim N(0,1)$
其中 $ X^{*}$ 為標準正志變數。
性質:
若 $ X \sim N(0,1) $ :
$\begin{array}{l}\Phi(-a)=1-\Phi(a) \\P(X>a)=1-\Phi(a) \\P(a<x<b)=\Phi(b)-\Phi(a) \\P(|X|<c)=2 \Phi(c)-1, \quad(c \geq 0)\end{array}$
若 $X \sim N\left(\mu, \sigma^{2}\right)$:
$\begin{array}{l}P(X \leq c)=\Phi\left(\frac{a-\mu}{\sigma}\right) \\P(a<x \leq b)=\Phi\left(\frac{b-\mu}{\sigma}\right)-\Phi\left(\frac{a-\mu}{\sigma}\right)\end{array}$
正態分佈的 $ 3 \sigma$ 原則:
$\begin{aligned}P(|X-\mu|<k \sigma) &=\Phi(k)-\Phi(-k) \\&=2 \Phi(k)-1 \\&=\left\{\begin{array}{ll}0.6826, & k=1 \\0.9545, & k=2 \\0.9973, & k=3\end{array}\right.\end{aligned}$
均勻分佈
若隨機變數 $X$ 的密度函式為:
$p(x)=\left\{\begin{array}{lc}\frac{1}{b-a}, & a<x<b \\0, & \text { 其他. }\end{array}\right.$
稱 $ X$ 服從區間 $ (a, b) $ 上的均勻分佈,記作 $ X \sim U(a, b)$ , 其分佈函式:
$F(x)=\left\{\begin{array}{ll}0, & x<a \\\frac{x-a}{b-a}, & a \leq x<b \\1, & x \geq b\end{array}\right.$
均勻分佈又稱作平頂分佈(因其概率密度為常值函式)。
數學期望: $\frac{a+b}{2} $
方差:$\frac{(b-a)^{2}}{12}$
指數分佈
若隨機變數 $X$ 的密度函式為:
$p(x)=\left\{\begin{array}{cc}\lambda \mathrm{e}^{-\lambda x}, & x \geq 0 \\0, & x<0\end{array}\right.$
則稱 $ X$ 服從引數為 $ \lambda$ 的指數分佈,記作 $ X \sim \operatorname{Exp}(\lambda) $ 。指數分佈的分佈函式為:
$F(x)=\left\{\begin{array}{cl}1-\mathrm{e}^{\lambda x}, & x \geq 0 \\0, & x<0\end{array}\right.$
指數分佈是一種偏態分佈,指數分佈隨機變數只可能取非負實數。指數分佈常被用作各種“壽命”分佈,譬如電子元器件的壽命、動物的壽命、電話的通話時間、隨機服務系統中的服務時間等都可假定服從指數分佈。指數分佈在可靠性與排隊論中有著廣泛的應用.。
數學期望: $\frac{1}{\lambda} $
方差: $ \frac{1}{\lambda^{2}}$
指數分佈的無記憶性
若隨機變數 $ X \sim \operatorname{Exp}(\lambda)$ , 則對任意的 $ t>0, s>0$ , 有:
$P(X>s+t \mid X>s)=P(X>t) $
證明:
因為 $ X \sim \operatorname{Exp}(\lambda)$ , 所以 $ P(X \geq s)=\mathrm{e}^{-\lambda s},(s>0) $。又因為
$\{X>s+t\} \subseteq\{X>s\} $
由條件概率可得:
$P(X>s+t \mid X>s)=\frac{P(X>s+t)}{P(X>s)}=\frac{\mathrm{e}^{-\lambda(s+t)}}{\mathrm{e}^{-\lambda t}}=\mathrm{e}^{-\lambda t}=P(X>t)$
證畢。
伽瑪分佈
若隨機變數 $X$ 的密度函式為:
$p(x)=\left\{\begin{array}{cl}\frac{\lambda^{a}}{\Gamma(\alpha)} x^{a-1} \mathrm{e}^{-\lambda x}, & x \geqslant 0 \\0, & x<0\end{array}\right.$
稱 $ \mathrm{X}$ 服從伽瑪分佈, 記作 $ X \sim G a(\alpha, \lambda)$ 。其中 $ \alpha>0$ 為形狀引數,$ \lambda>0$ 為尺度引數。
數學期望: $\frac{\alpha}{\lambda} $
方差: $\frac{\alpha}{\lambda^{2}} $
伽瑪函式的特例:
1. $\alpha=1$ 時的伽瑪分佈為指數分佈: $G a(1, \lambda)=\operatorname{Exp}(\lambda)$ ,
2.稱 $\alpha=\frac{n}{2}$, $\lambda=\frac{1}{2}$ 的伽瑪分佈為自由度為 $n$ 的 $\chi^{2}$ (卡方) 分佈,記作 $\chi^{2}(n)$ :
$G a\left(\frac{n}{2}, \frac{1}{2}\right)=\chi^{2}(n)$
因卡方分佈是特殊的伽瑪分佈,故不難求得卡方分佈的:
數學期望: $ n $
方差: $ 2 n$
卡方分佈的唯一引數 $n$ 稱為它的自由度, 具體含義在之後的數理統計中會給出。
貝塔分佈
先給出貝塔函式:
$\mathrm{B}(a, b)=\int_{0}^{1} x^{a-1}(1-x)^{b-1} d x$
其中引數 $a>0, b>0$ 。
貝塔函式具有以下性質:
1. $B(a, b)=B(b, a) $
2.貝塔函式與伽瑪函式有如下關係:
$\mathrm{B}(a, b)=\frac{\Gamma(a) \Gamma(b)}{\Gamma(a+b)}$
貝塔分佈:
若隨機變數 $X$ 的密度函式為:
$p(x)=\left\{\begin{array}{cc}\frac{\Gamma(a) \Gamma(b)}{\Gamma(a+b)} x^{a-1}(1-x)^{b-1}, & 0<x<1 \\0, & \text { 其他. }\end{array}\right.$
則稱 $ X$ 服從貝塔分佈, 記作 $X \sim B e(a, b)$ , 其中 $a>0, b>0$ 都是形狀奈數。
數學期望: $\frac{a(a+1)}{(a+b)(a+b+1)} $
方差: $ \frac{a b}{(a+b)^{2}(a+b+1)}$
參考