概率論——常用分佈

CBlair發表於2021-10-11

伯努利試驗

  伯努利試驗(Bernoulli experiment)是在同樣的條件下重複地、相互獨立地進行的一種隨機試驗,其特點是該隨機試驗只有兩種可能結果:發生或者不發生

  我們假設該項試驗獨立重複地進行了 $n$ 次,那麼就稱這一系列重複獨立的隨機試驗為 $n$ 重伯努利試驗,或稱為伯努利概型。單個伯努利試驗是沒有多大意義的,然而,當我們反覆進行伯努利試驗,去觀察這些試驗有多少是成功的,多少是失敗的,事情就變得有意義了,這些累計記錄包含了很多潛在的非常有用的資訊。

  如果無窮隨機變數序列  $X_{1}, X_{2}, \ldots$  是獨立同分布 $(i. i.  d . )$ 的,而且每個隨機變數  $X_{i}$  都服從引數為  $\mathrm{p}$  的伯努利分佈, 那麼 隨機變數  $X_{1}, X_{2}, \ldots$  就形成引數為  $p$  的一系列伯努利試驗。同樣,如果 $n$ 個隨機變數  $X_{1}, X_{2}, \ldots, X_{n}$  獨立同分布,並且都服從引數為 $p$ 的伯努利分佈,則隨機變數  $X_{1}, X_{2}, \ldots, X_{n}$  形成引數為  $p$  的 $n$ 重伯努利試驗。

  下面舉幾個例子加以說明,假定重複拋擲一枚均勻硬幣,如果在第 $i$ 次拋擲中出現正面,令 $X_{i}=1$ ;如果出現反面$X_{i}=0$,那麼,隨機變數  $X_{1}, X_{2}, \ldots$  就形成引數為  $p=\frac{1}{2}$  的一系列伯努利試驗,同樣,假定由一個特定機器生產的零件中  $10 \%$  是有缺陷的,隨機抽取 $n$ 個進行觀測,如果第 1 個零件有缺陷,令  $X_{i}=1$ ;  如果沒有缺陷,令  $X_{i}=0, i=1,2, \ldots, n$ , 那麼,隨機變數  $X_{1}, X_{2}, \ldots, X_{n} $ 就形成引數為  $p=\frac{1}{10}$  的 $n$ 重伯努利試驗。


離散分佈

二項分佈

  定義:在 $n$ 次獨立重複的伯努利試驗中,設每次試驗中事件 $A$ 發生的概率為 $p$。用 $X$ 表示 $n$ 重伯努利試驗中事件 $A$ 發生的次數,則 $X$ 的可能取值為 $0,1,…,n$ ,且對每一個 $k$($0≤k≤n$),事件 ${X=k}$ 即為 “ $n$ 次試驗中事件 $A$ 恰好發生 $k$ 次”,隨機變數 $X$ 的離散概率分佈即為二項分佈(Binomial Distribution)。

  記  $X$  為  $n$  重伯努利試驗中成功的事件 (記為  $A$  ) 的次數,則  $X=0,1,2, \cdots, n$ 。 $X$  服從二項分佈,記  $p$  為事件  $A$  發生的概率, $X$  的分佈列為:

    $P\{X=k\}=\left(\begin{array}{l}n \\k\end{array}\right) p^{k}(1-p)^{n-k}, \quad k=0,1, \cdots, n$

  記做

    $X \sim b(n, p)$

    或:$X \sim B(n, p)$

   符號“~”讀作“服從於”,該記號表示隨機變數 $X$ 服從引數為 $n,p$ 的二項分佈。

    

  數學期望:$np$
  方差:$np(1-p)$

  舉例:

  1. 設射手命中率為 $0.8$ ,則射擊 $n$ 次, 命中的次數 $X \sim b(n, 0.8)$ .
  2. 已知人群中色盲率為 $p$ , 在人群中隨機調查50個人,則其中色盲患者 $ X \sim b(50, p)$ .
  3. 某藥品的有效率為 $ 0.9$ , 今有 $10$ 人服用,則服藥有效的人數 $ X \sim b(10,0.9)$ .
  4.......


兩點分佈

  兩點分佈:是一種當 $n=1$ 時的特殊的二項分佈,又名 $0-1$分佈,伯努利分佈,用來描述一次伯努利試驗中成功的次數 $X $,其中$X=0,1$ 。$X$ 服從兩點分佈, 分佈列為:

    $P(X=x)=p^{x}(1-p)^{1-x}, \quad x=0,1 $

  或表示為:

     $\begin{array}{c|c|c}\mathrm{X} & 0 & 1 \\\hline P & 1-p & p\end{array}$

  其中 $p=P(X=1)$ 為事件成功的概率。
  舉例:
  1. 小明投籃命中率為 $ 0.8$ ,投籃一次,其命中的次數 $ X \sim b(1,0.8)$ ;
  2. 彩票中獎率為 $ 0.0001$ , 小明購買一張彩票, 其中獎的次數 $ X \sim b(1,0.0001) $;
  3. 不會做的單項選擇題做對的概率為 $ 0.25$ ,隨機選擇一個選項, 做對的次數 $ X \sim b(1,0.25) $;
  4. $ \ldots \ldots $
  兩點分佈是特殊的二項分佈, 在二項分佈數學期望和方差的公式中取 $n=1$ 得到兩點分佈:

  數學期望: $p$
  方差: $p(1-p)$

  二項分佈與兩點分佈的關係:若有一列獨立同分佈於 $ b(1, p)$ 的隨機變數序列 $ \left\{X_{i}\right\}_{i=1}^{n}$ , 則其和:

    $X_{1}+X_{2}+\cdots+X_{n}=\sum_{i=1}^{n} X_{i} \sim b(n, p)$

  這個結論表明兩點分佈具有可加性,且對於服從 $ b(n, p)$ 的隨機變數 $ X$ , 可看做由 $ n$ 個獨立 同分佈於 $ b(1, p)$ 的隨機變數 $ X_{i}$ 的和。


泊松分佈

  Poisson分佈,是一種統計與概率學裡常見到的離散概率分佈,由法國數學家西莫恩·德尼·泊松(Siméon-Denis Poisson)在1838年時發表。

  泊松分佈的概率函式為:

    $P(X=k)=\frac{\lambda^{k}}{k !} \mathrm{e}^{-\lambda}, \quad k=0,1,2, \cdots$

  泊松分佈的引數 $\lambda$ 是單位時間(或單位面積)內隨機事件的平均發生次數。泊松分佈適合於描述單位時間內隨機事件發生的次數。

  記 $X \sim P(\lambda)$,常與單位時間、單位面積、單位體積上的計數過程相聯絡。

    

  數學期望: $\lambda$

  方差: $\lambda$


  這裡數學期望為 $ \lambda$ 是指 $ X$ 的均值為 $ \lambda$ 。譬如對於應用舉例 1,某段時間內,來到某商場的顧客數平均而言是  $\lambda$ 。其他的應用類似。

  舉例:

  1. 某時間段內,來到某商場的顧客數;

  2. 單位時間內,某網站的點選量;

  3. 一平方米內玻璃上的氣泡數;

  4. $ \ldots \ldots $


均勻分佈

  若隨機變數 $X$ 的密度函式為:
    $p(x)=\left\{\begin{array}{lc}\frac{1}{b-a}, & a<x<b \\0, & \text { 其他. }\end{array}\right.$

  稱 $ X$ 服從區間  $ (a, b)$  上的均勻分佈,記作 $ X \sim U(a, b) $,其分佈函式:

    $F(x)=\left\{\begin{array}{ll}0, & x<a \\\frac{x-a}{b-a}, & a \leq x<b \\1, & x \geq b\end{array}\right.$

      

  均勻分佈又稱作平頂分佈(因其概率密度為常值函式)。

  數學期望: $\frac{a+b}{2} $
  方差: $ \frac{(b-a)^{2}}{12}$


超幾何分佈

   有  $N$  件產品,其中有  $M$  件不合格品。若從中不放回地隨機抽取  $n$  件,則其中含有的不合格品的件數  $X$  服從超幾何分佈,分佈列為:

     $P(X=k)=\frac{C_{M}^{k} C_{N-M}^{n-k}}{C_{N}^{n}}=\frac{\left(\begin{array}{c}M \\k\end{array}\right)\left(\begin{array}{c}N-M \\n-k\end{array}\right)}{\left(\begin{array}{l}N \\n\end{array}\right)}, \quad k=0,1, \cdots, r$。

  記為 $X \sim h(n, N, M)$。其中 $r=\min \{M, n\}$,且 $M \leqslant N, n \leqslant N$ 。$n, N, M$ 均為正整數。
  舉例:從有 10 件不合格品的 100 件產品中隨機抽取 5 件,則抽取的產品中不合格品數   $X \sim h(5,100,10)  $。

  數學期望:$n \bullet \frac{M}{N}$

  方差:$D(X)=\frac{n M}{N}\left(1-\frac{M}{N}\right) \frac{N-n}{N-1}$

  超幾何分佈和二項分佈的聯絡

  (1) 在超幾何分佈中,當 $N \rightarrow+\infty$ 時, $\frac{M}{N} \rightarrow P$ (二項分佈中的 $\mathrm{p}$) 。
  (2) 當 $ N \rightarrow+\infty$ 時,超幾何分佈的數學期望

    $E X=\frac{n M}{N} \rightarrow n p=E X$

  (3) 當 $ N \rightarrow+\infty$ 時,超幾何分佈的方差 $ D X=n p(1-p)$ (二項分佈的方差) 。
  (4) 當 $ N \rightarrow+\infty$ 時,超幾何分佈近似為二項分佈。


幾何分佈

  在伯努利試驗序列中,記每次試驗中事件 $A$ 發生的概率為 $p$,如果 $X$ 為事件 $A$ 首次出現時的試驗次數。詳細地說,是:前 $k-1$ 次皆失敗,第 $k$ 次成功的概率。則 $X=1,2, \cdots$ 。$X$ 服從幾何分佈,分佈列為:
  $P(X=k)=(1-p)^{k-1} p, \quad k=1,2, \cdots $
  記作 $ X \sim G e(p) $ 。
  舉例:
  1. 某產品的不合格率為 0.05 , 首次查到不合格品的檢查次數 $ X \sim G e(0.05) $
  2. 某射手的命中率為 0.8 , 首次命中的射擊次數 $ X \sim G e(0.8) $
  3. 擲一顆骰子,首次出現六點的投鄭次數 $ X \sim G e\left(\frac{1}{6}\right) $
  4. .....

  數學期望: $ \frac{1}{p} $
  方差: $ \frac{1-p}{p^{2}} $

  幾何分佈的無記憶性:

  設 $X \sim G e(p)$ ,對任意正整數 $m, n$ ,有:

    $P(X>m+n \mid X>m)=P(X>n)$

  該性質表明,在前 $m$ 次試驗中 $A$ 沒有出現的條件下,則在接下去的 $n$ 次試驗中 $A$ 仍末出現 的概率只與 $n$ 有關,而與以前的 $m$ 次試驗無關,似乎忘記了前 $m$ 次試驗結果, 這就是無記憶 性。


負二項分佈

   在伯努利試驗序列中,記每次試驗中事件  $A $ 發生的概率為  $p$  ,如果  $X$  為事件  $A$  第  $r$  次出 現時的試驗次數,則  $X$  的可能取值為  $r, r+1, \cdots, r+m, \cdots$ ,  稱 $X$ 服從負二項分佈巴斯卡分佈,其分佈列為:

   $P(X=k)=\left(\begin{array}{l}k-1 \\r-1\end{array}\right) p^{r}(1-p)^{k-r}, \quad k=r, r+1, \cdots$

  記作: $X \sim N b(r, p)$ , 當 $r=1$ 時即為幾何分佈,即幾何分佈是特殊的負二項分佈。從二項分佈和負二項分佈的定義中看出,二項分佈是伯努利試驗次數 ($n$) 固定,事件 $A$ 成功的次數 $X$ 在 $0 \sim n$ 中取值;而負二項分佈是事件 $A$ 成功的次數 ( $r$ ) 固定,伯努利實驗次數 $X$ 在 $r, r+1, \cdots$ 中取值,可見負二項分佈的 "負" 字的由來。

數學期望: $\frac{r}{p} $
方差: $ \frac{r(1-p)}{p^{2}}$

  從負二項分佈和幾何分佈的數學期望和方差的關係可知,類比二項分佈與兩點分佈的關係,可以得 到下面的結論:
  若有一列獨立同分佈於 $ G e(p)$ 的隨機變數序列 $ \left\{X_{i}\right\}_{i=1}^{n}$ , 則其和:

    $X_{1}+X_{2}+\cdots+X_{r}=\sum \limits _{i=1}^{r} X_{i} \sim N b(r, p)$

  這並不是說明幾何分佈具有可加性,因為可加性要求服從該類分佈的隨機變數的和仍服從該類分佈,但是服從幾何分佈的隨機變數的和服從負二項分佈,這個概念要特別注意。上述結論只能說明 對於服從 $ Nb(r, p)$ 的隨機變數 $ X$ ,可看做由 $ r$ 個獨立同分佈於 $ G e(p)$ 的隨機變數 $ X_{i}$ 的和。


常用連續分佈

正態分佈

  正態分佈(Normal distribution),也稱“常態分佈”,又名高斯分佈(Gaussian distribution),最早由棣莫弗(Abraham de Moivre)在求二項分佈的漸近公式中得到。C.F.高斯在研究測量誤差時從另一個角度匯出了它。P.S.拉普拉斯和高斯研究了它的性質。

  若隨機變數 $X$ 的密度函式為:

    $p(x)=\frac{1}{\sqrt{2 \pi} \sigma} \mathrm{e}^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}}, \quad-\infty<x<\infty$

  則稱 $X$ 服從正態分佈,稱 $X$ 為正態變數。記 $X \sim N\left(\mu, \sigma^{2}\right) $。其中 $\mu$ 為位置引數,用於控制曲線在 $x$ 軸上的位置; $\sigma$ 為尺度引數,用於控制曲線的形狀。

  正態曲線呈鍾型,兩頭低,中間高,左右對稱因其曲線呈鐘形,因此人們又經常稱之為鐘形曲線。
  分佈函式:

    $F(x)=\int_{-\infty}^{x} p(t) \mathrm{d} t=\int_{-\infty}^{x} \frac{1}{\sqrt{2 \pi} \sigma} \mathrm{e}^{-\frac{(t-\mu)^{2}}{2 \sigma^{2}}} \mathrm{~d} t$

      

數學期望:$\mu$

方差: $\sigma^{2} $

  稱 $ \mu=0, \sigma^{2}=1$ 時的正態分佈為標準正態分佈,其密度函式和分佈函式分別為:

    $\begin{array}{l}\varphi(x)=\frac{1}{\sqrt{2 \pi}} \mathrm{e}^{-\frac{x^{2}}{2}} \\\Phi(x)=\int_{-\infty}^{x} \varphi(t) \mathrm{d} t=\int_{-\infty}^{x} \frac{1}{\sqrt{2 \pi}} \mathrm{e}^{-\frac{t^{2}}{2}} \mathrm{~d} t\end{array}$

  任何一個正態變數均可以通過標準化轉化為標準正態變數,即若 $X \sim N\left(\mu, \sigma^{2}\right) $,則:

    $X^{*}=\frac{X-\mu}{\sigma} \sim N(0,1)$

  其中 $ X^{*}$ 為標準正志變數。

  性質:

  若 $ X \sim N(0,1) $ :     

    $\begin{array}{l}\Phi(-a)=1-\Phi(a) \\P(X>a)=1-\Phi(a) \\P(a<x<b)=\Phi(b)-\Phi(a) \\P(|X|<c)=2 \Phi(c)-1, \quad(c \geq 0)\end{array}$   

  若 $X \sim N\left(\mu, \sigma^{2}\right)$:     

    $\begin{array}{l}P(X \leq c)=\Phi\left(\frac{a-\mu}{\sigma}\right) \\P(a<x \leq b)=\Phi\left(\frac{b-\mu}{\sigma}\right)-\Phi\left(\frac{a-\mu}{\sigma}\right)\end{array}$   

  正態分佈的 $ 3 \sigma$ 原則:     

    $\begin{aligned}P(|X-\mu|<k \sigma) &=\Phi(k)-\Phi(-k) \\&=2 \Phi(k)-1 \\&=\left\{\begin{array}{ll}0.6826, & k=1 \\0.9545, & k=2 \\0.9973, & k=3\end{array}\right.\end{aligned}$


均勻分佈

  若隨機變數 $X$ 的密度函式為:

    $p(x)=\left\{\begin{array}{lc}\frac{1}{b-a}, & a<x<b \\0, & \text { 其他. }\end{array}\right.$

  稱 $ X$ 服從區間 $ (a, b) $ 上的均勻分佈,記作 $ X \sim U(a, b)$ , 其分佈函式:

    $F(x)=\left\{\begin{array}{ll}0, & x<a \\\frac{x-a}{b-a}, & a \leq x<b \\1, & x \geq b\end{array}\right.$

    

  均勻分佈又稱作平頂分佈(因其概率密度為常值函式)。

  數學期望: $\frac{a+b}{2} $
  方差:$\frac{(b-a)^{2}}{12}$


指數分佈

  若隨機變數 $X$ 的密度函式為:

    $p(x)=\left\{\begin{array}{cc}\lambda \mathrm{e}^{-\lambda x}, & x \geq 0 \\0, & x<0\end{array}\right.$

  則稱 $ X$ 服從引數為 $ \lambda$ 的指數分佈,記作 $ X \sim \operatorname{Exp}(\lambda) $ 。指數分佈的分佈函式為:

    $F(x)=\left\{\begin{array}{cl}1-\mathrm{e}^{\lambda x}, & x \geq 0 \\0, & x<0\end{array}\right.$

    

  指數分佈是一種偏態分佈,指數分佈隨機變數只可能取非負實數。指數分佈常被用作各種“壽命”分佈,譬如電子元器件的壽命、動物的壽命、電話的通話時間、隨機服務系統中的服務時間等都可假定服從指數分佈。指數分佈在可靠性與排隊論中有著廣泛的應用.。

  數學期望: $\frac{1}{\lambda} $
  方差: $ \frac{1}{\lambda^{2}}$


  指數分佈的無記憶性
  若隨機變數 $ X \sim \operatorname{Exp}(\lambda)$ , 則對任意的 $ t>0, s>0$ , 有:
    $P(X>s+t \mid X>s)=P(X>t) $
  證明:
  因為 $ X \sim \operatorname{Exp}(\lambda)$ , 所以 $ P(X \geq s)=\mathrm{e}^{-\lambda s},(s>0) $。又因為
    $\{X>s+t\} \subseteq\{X>s\} $
  由條件概率可得:

    $P(X>s+t \mid X>s)=\frac{P(X>s+t)}{P(X>s)}=\frac{\mathrm{e}^{-\lambda(s+t)}}{\mathrm{e}^{-\lambda t}}=\mathrm{e}^{-\lambda t}=P(X>t)$

  證畢。


伽瑪分佈

  若隨機變數 $X$ 的密度函式為:

    $p(x)=\left\{\begin{array}{cl}\frac{\lambda^{a}}{\Gamma(\alpha)} x^{a-1} \mathrm{e}^{-\lambda x}, & x \geqslant 0 \\0, & x<0\end{array}\right.$

  稱 $ \mathrm{X}$ 服從伽瑪分佈, 記作 $ X \sim G a(\alpha, \lambda)$ 。其中 $ \alpha>0$ 為形狀引數,$ \lambda>0$ 為尺度引數。

    

  數學期望: $\frac{\alpha}{\lambda} $

  方差: $\frac{\alpha}{\lambda^{2}} $
  伽瑪函式的特例:
  1. $\alpha=1$ 時的伽瑪分佈為指數分佈: $G a(1, \lambda)=\operatorname{Exp}(\lambda)$ ,
  2.稱 $\alpha=\frac{n}{2}$, $\lambda=\frac{1}{2}$ 的伽瑪分佈為自由度為 $n$ 的 $\chi^{2}$ (卡方) 分佈,記作 $\chi^{2}(n)$ :

    $G a\left(\frac{n}{2}, \frac{1}{2}\right)=\chi^{2}(n)$

  因卡方分佈是特殊的伽瑪分佈,故不難求得卡方分佈的:

  數學期望: $ n $  

  方差: $ 2 n$

  卡方分佈的唯一引數 $n$ 稱為它的自由度, 具體含義在之後的數理統計中會給出。


貝塔分佈

  先給出貝塔函式:

    $\mathrm{B}(a, b)=\int_{0}^{1} x^{a-1}(1-x)^{b-1} d x$
  其中引數 $a>0, b>0$ 。

    

  貝塔函式具有以下性質:
  1. $B(a, b)=B(b, a) $
  2.貝塔函式與伽瑪函式有如下關係:
    $\mathrm{B}(a, b)=\frac{\Gamma(a) \Gamma(b)}{\Gamma(a+b)}$
  貝塔分佈:
  若隨機變數 $X$ 的密度函式為:

    $p(x)=\left\{\begin{array}{cc}\frac{\Gamma(a) \Gamma(b)}{\Gamma(a+b)} x^{a-1}(1-x)^{b-1}, & 0<x<1 \\0, & \text { 其他. }\end{array}\right.$

  則稱 $ X$  服從貝塔分佈, 記作 $X \sim B e(a, b)$ , 其中 $a>0, b>0$  都是形狀奈數。

數學期望: $\frac{a(a+1)}{(a+b)(a+b+1)} $
方差: $ \frac{a b}{(a+b)^{2}(a+b+1)}$


參考

1 常用分佈

 

 

 

相關文章