常見的機率分佈

qypx發表於2024-07-08

1.離散型分佈

1.1 兩點分佈(伯努利分佈/貝努利分佈/0-1分佈)

稱隨機變數 \(X\) 服從引數為 \(p\) 的伯努利分佈,如果它分別以機率 \(p\)\(1-p\) 取 1 和 0 為值。​

\[P(X=k)=p^k(1-p)^{1-k}, \quad k=0,1\\ X\sim B(1,p)\\ E(X)=p\\ D(X)=p(1-p) \]

1.2 二項分佈

n次獨立的伯努利試驗。如果事件發生的機率是 \(p\),n次獨立重複試驗中發生k次的機率是(有放回抽樣)

\[P(X=k)=\mathrm C_n^k p^k(1-p)^{n-k},\quad k=0,1,...,n\\ X\sim B(n,p)\\ E(X)=np\\ D(X)=np(1-p) \]

\(n\) 件產品,其中 \(m\) 件次品 (\(m<n\)),從中不放回地任意抽取 \(k\) 件產品和有放回地任意抽取 \(k\) 件產品,在這兩種抽取方法中每次抽出次品的機率相同,都為 \(\frac{m}{n}\),抽得次品數的期望值也相同,都為 \(k\frac{m}{n}\),但抽到的次品數的分佈列不同,方差不同(超幾何分佈與二項分佈)

關於為什麼不放回抽樣,每次抽到次品的機率都是 \(\frac{m}{n}\),因為不放回抽樣,每次抽樣,都是與前些次的抽樣相關的。
第一次抽樣,抽中次品的機率為 \(\frac{m}{n}\)
第二次抽樣,抽中次品的機率為 \(\frac{m}{n}\times\frac{m-1}{n-1}+\frac{n-m}{n}\times\frac{m}{n-1}=\frac{m}{n}\)
第三次抽樣,抽中次品的機率為
\(\frac{m}{n}\times\frac{m-1}{n-1}\times\frac{m-2}{n-2}+\frac{m}{n}\times\frac{n-m}{n-1}\times\frac{m-1}{n-2}+\frac{n-m}{n}\times\frac{m}{n-1}\times\frac{m-1}{n-2}+\frac{n-m}{n}\times\frac{n-m-1}{n-1}\times\frac{m}{n-2}\)
經過計算可得仍為 \(\frac{m}{n}\)

1.3 幾何分佈

在n次伯努利試驗中,試驗k次才第一次成功的機率。幾何分佈是帕斯卡分佈當 \(r=1\) 時的特例

\[P(X=k)=(1-p)^{k-1}p,\quad k=1,2,...\\ X \sim GE(p)\\ E(X)=\frac{1}{p}\\ D(X)=\frac{1-p}{p^2} \]

例:某產品的合格率為0.05,則首次查到不合格品的檢查次數 \(X\sim GE(0.05)\)

1.4 帕斯卡分佈(負二項分佈)

在重複獨立的伯努利試驗中,設每次試驗成功的機率為 \(p\),若將試驗進行到出現 \(r\) (\(r\) 為常數) 次成功為止,以隨機變數 \(X\) 表示所需試驗次數,

\[P(X=k)=\mathrm C_{k-1}^{r-1}p^r(1-p)^{k-r}, \quad k=r,r+1,...\\ E(X)=\frac{r}{p} \]

(當 \(r\) 是整數時,負二項分佈又稱帕斯卡分佈)

1.5 超幾何分佈

從 N 個物件中抽出 n 個物件,成功抽出指定種類的物件的次數(不放回抽樣)。

\(X\sim H(N,M,n)\)

產品抽樣檢查中,假定在 N 件產品中有 M 件不合格品,即不合格率為 \(\frac{M}{N}\),在產品中隨機抽 n 件進行檢查,發現 k 件不合格品的機率為

\[P(X=k)=\frac{\mathrm C_M^k \mathrm C_{N-M}^{n-k}}{\mathrm C_N^n},\quad k=0,1,...,min\{n,M\}\\ E(X)=\frac{nM}{N}\\ D(X)=n\frac{M}{N}(1-\frac{M}{N})\frac{N-m}{N-1} \]

1.6 泊松分佈

泊松分佈適用於描述單位時間內隨機事件發生的次數,泊松分佈的引數 \(\lambda\) 是單位時間內隨機事件的平均發生次數。

\[P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}, \quad k=0,1,...\\ E(X)=\lambda\\ D(X)=\lambda \]

特徵函式:\(\Psi(t)=\exp\{\lambda(e^{it}-1)\}\)

2.連續型分佈

2.1 均勻分佈 \(U(a,b)\)

密度函式:

\[f(x)=\left\{ \begin{aligned} &\frac{1}{b-a}&,&\quad a<x<b \\ &0&,&\quad 其他 \end{aligned} \right. \]

分佈函式:

\[F(x)=\left\{ \begin{aligned} &0&,&\quad x<a \\ &\frac{x-a}{b-a}&,&\quad a\leq x < b\\ &1&,&\quad x\geq b \end{aligned} \right. \]

期望和方差:

\[E(X)=\frac{a+b}{2}\\ D(X)=\frac{(b-a)^2}{12} \]

2.2 指數分佈 \(E(\lambda)\)

\[f(x)=\left\{ \begin{aligned} &\lambda e^{-\lambda x} &,&\quad x>0 \\ &0&,&\quad 其他 \end{aligned} \right. \]

\[F(x)=\left\{ \begin{aligned} &0&,&\quad x<0\\ &1-e^{-\lambda x} &,&\quad x\geq0 \\ \end{aligned} \right. \]

\[E(X)=\frac 1\lambda\\ D(X)=\frac {1}{\lambda^2} \]

2.3 正態分佈 \(N(\mu, \sigma^2)\)

\[f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}},\quad -\infty <x<+\infty\\ F(x)=\frac{1}{\sqrt{2\pi}\sigma}\int_{-\infty}^x e^{-\frac{(t-\mu)^2}{2\sigma^2}}dt\\ \]

\[E(X)=\mu\\ D(X)=\sigma^2 \]

一般來說,正態分佈的密度曲線是以為中心,在 \(\mu\) 的兩側呈對稱的形狀,曲線的形狀像一個鐘的剖面,故稱為鐘形曲線。 \(\sigma\) 越大,密度曲線的峰度越低; \(\sigma\) 越小,密度曲線的峰度越高。無論引數 \(\mu\)\(\sigma\) 取何值,密度曲線下所覆蓋的面積均於 1。 正態分佈的密度曲線見圖 1.4 。

image

正態分佈曲線下,位於\(\mu\pm \sigma, \mu\pm 2\sigma, \mu\pm 3\sigma\) 之間的面積分別約佔總面積的 68.26%,95.45%, 99.73%, 如 圖 1.5 所示 。
image

當總體機率分佈為正態分佈時,作為從中抽出的樣本,其統計量的樣本機率分佈有卡方分佈,t分佈,F分佈等。因此正態分佈成為計量經濟學乃至統計學中最重要的概念之一。

2.4 \(\chi^2\)分佈

如果從標準正態分佈 \(N(0,1)\) 的總體中得到 n 個獨立的隨機變數分別為 \(X_1, X_2, ..., X_n\),則由 \(\sum_{i=1}^n X_i^2\) 得到的分佈稱作自由度為 n 的 \(\chi^2\) 分佈,記為 \(X\sim \chi^2(n)\).

期望和方差:

\[E(X)=n\\ D(X)=2n \]

image

\(\chi^2\) 分佈的加法定理. 設 \(X_1, X_2, ..., X_k\) 是相互獨立的隨機變數,且 \(X_i\sim \chi^2(n_i), i=1,2,...,k\),則

\[\sum_{i=1}^k X_i \sim \chi^2(n_1+n_2+...+n_k). \]

\(\chi^2\)分佈與 \(N(0,1)\) 分佈之間有如下關係:

\(X_1, X_2, ..., X_n\) 是相互獨立的隨機變數,並且 \(X_i\sim N(0,1), i=1,2,...,n\),則

\[\sum_{i=1}^n X_i^2\sim \chi^2(n). \]

2.5 t分佈

設隨機變數 \(X\sim N(0,1), Y\sim \chi^2(n)\),X 與 Y 相互獨立,則隨機變數

\[t=\frac{X}{\sqrt{Y/n}} \]

遵從自由度為n的t分佈,記為 \(t=\frac{X}{\sqrt{Y/n}}\sim t(n)\).

期望和方差:

當n>2時,\(E(t)=0, D(t)=\frac{n}{n-2}\).

image

當n<30時,t分佈的分散程度比標準正態分佈大,密度函式曲線比較平緩,隨著n的增大,t分佈逐漸接近標準正態分佈;當 \(n\rightarrow\infty\)時,t分佈漸進標準正態分佈

t分佈可用於方差未知時對有關均值的假設進行檢驗。關於迴歸係數的顯著性檢驗就用到 t分佈。

2.6 F分佈

設隨機變數 \(X\sim \chi^2(n_1), Y\sim \chi^2(n_2)\),且X與Y相互獨立,則稱隨機變數

\[F=\frac{X/n_1}{Y/n_2} \]

遵從自由度為 \((n_1,n_2)\) 的F分佈,記作 \(F\sim F(n_1,n2)\).

F分佈的形狀為正偏態分佈,隨著 \(n_1,n_2\) 的增大,其機率密度曲線的偏斜度雖有所減緩卻仍保持偏態分佈,並不以正態分佈為其極限分佈形式。

image

如果 \(t\sim t(n)\),則 \(t^2\sim F(1,n)\)
如果 \(F\sim F(n_1,n_2)\),則 \(\frac1F \sim F(n_2, n_1)\).

F分佈在迴歸方程的顯著性檢驗中具有重要作用

相關文章