卡方分佈定理的證明

redufa發表於2024-12-10

目錄
  • 定理
    • 解釋
    • 證明
  • 說明

定理

\(x_1, x_2, \cdots, x_n\) 是來自正態總體 \(N(\mu, \sigma^2)\) 的樣本,其樣本均值和樣本方差分別為

\(\bar{x} = \frac{1}{n} \sum_{i = 1}^{n} x_i \quad \text{和} \quad s^2 = \frac{1}{n - 1} \sum_{i = 1}^{n} (x_i - \bar{x})^2\)

則有:

  1. \(\bar{x}\)\(s^2\)相互獨立;
  2. \(\bar{x} \sim N(\mu, \frac{\sigma^2}{n})\)
  3. \((n-1)s^2 \sim \chi^2(n-1)\)
解釋
  1. \(\bar{x}\)\(s^2\) 相互獨立

    • 在正態分佈的條件下,樣本均值 \(\bar{x}\) 和樣本方差 \(s^2\) 是兩個獨立的統計量。這意味著,知道 \(\bar{x}\) 的值不會影響 \(s^2\) 的分佈,反之亦然。這一性質在進行統計推斷時非常有用。
  2. \(\bar{x} \sim N(\mu, \sigma^2 / n)\)

    • 樣本均值 \(\bar{x}\) 本身也服從正態分佈,其均值等於總體均值 \(\mu\),方差等於總體方差 \(\sigma^2\) 除以樣本量 \(n\)。這一性質說明了樣本均值作為總體均值的估計量的精確性,隨著樣本量的增加,樣本均值的方差減小,估計更加精確。
  3. \(\frac{(n - 1)s^2}{\sigma^2} \sim \chi^2 (n - 1)\)

    • 樣本方差 \(s^2\) 經過標準化後,即乘以 \(\frac{n - 1}{\sigma^2}\),服從自由度為 \(n - 1\) 的卡方分佈。 這一性質在進行方差分析、假設檢驗等統計過程中非常重要,因為它提供了樣本方差與總體方差之間關係的數學描述。

描述了正態總體樣本均值和樣本方差的重要性質,包括它們的獨立性、樣本均值的分佈以及樣本方差的分佈。這些性質在數理統計和實際應用中具有廣泛的應用價值,特別是在進行假設檢驗、置信區間估計和方差分析等統計推斷時。

證明

\((x_1, x_2, \cdots, x_n)\) 的聯合密度函式為

\[\begin{align} p(x_1, x_2, \cdots, x_n) &= (2\pi\sigma^2)^{-n/2} \exp\left\{-\frac{1}{2\sigma^2} \sum_{i = 1}^{n} (x_i - \mu)^2\right\} \\ &= (2\pi\sigma^2)^{-n/2} \exp\left\{-\frac{1}{2\sigma^2} \left(\sum_{i = 1}^{n} x_i^2 - 2n\bar{x}\mu + n\mu^2\right)\right\} \end{align} \]

\[ \]

\(X = (x_1, x_2, \cdots, x_n)^T\),取一個 \(n\) 維正交矩陣 \(A\),其第一行的每一個元素均為 \(1/\sqrt{n}\),如下:

\[A = \left( \begin{array}{ccccc} \frac{1}{\sqrt{n}} & \frac{1}{\sqrt{n}} & \frac{1}{\sqrt{n}} & \cdots & \frac{1}{\sqrt{n}} \\ \frac{1}{\sqrt{2 \cdot 1}} & -\frac{1}{\sqrt{2 \cdot 1}} & 0 & \cdots & 0 \\ \frac{1}{\sqrt{3 \cdot 2}} & \frac{1}{\sqrt{3 \cdot 2}} & -\frac{2}{\sqrt{3 \cdot 2}} & \cdots & 0 \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ \frac{1}{\sqrt{n(n - 1)}} & \frac{1}{\sqrt{n(n - 1)}} & \frac{1}{\sqrt{n(n - 1)}} & \cdots & -\frac{\sqrt{n - 1}}{\sqrt{n}} \end{array} \right) \]

\(Y = (y_1, y_2, \cdots, y_n)^T = AX\),則該線性變換的雅可比(Jacobi)行列式為1(因為 \(A\) 是正交矩陣,所以其行列式的絕對值為1,且在此變換中保持符號不變,即為1)。

注意到 \(\sum_{i = 1}^{n} y_i^2 = Y^TY = X^TA^TAX = \sum_{i = 1}^{n} x_i^2\)

於是 \(y_1, y_2, \cdots, y_n\) 的聯合密度函式為:

\[\begin{align} p(y_1, y_2, \cdots, y_n) &= (2\pi\sigma^2)^{-\frac{n}{2}} \exp\left\{-\frac{1}{2\sigma^2} \left(\sum_{i = 1}^{n} y_i^2 - 2\sqrt{n}y_1\mu + n\mu^2\right)\right\} \\ &= (2\pi\sigma^2)^{-\frac{n}{2}} \exp\left\{-\frac{1}{2\sigma^2} \left[\left(\sum_{i = 1}^{n} y_i^2\right) + (y_1 - \sqrt{n}\mu)^2 - n\mu^2 + n\mu^2\right]\right\} \\ &= (2\pi\sigma^2)^{-\frac{n}{2}} \exp\left\{-\frac{1}{2\sigma^2} \left[\left(\sum_{i = 1}^{n} y_i^2\right) + (y_1 - \sqrt{n}\mu)^2\right]\right\} \end{align} \]

由此,\(Y = (y_1, y_2, \cdots, y_n)^T\) 的各個分量相互獨立,且都服從正態分佈。其方差均為 \(\sigma^2\),而均值並不完全相同:\(y_2, \cdots, y_n\) 的均值為0,\(y_1\) 的均值為 \(\sqrt{n}\mu\)​。這就證明了結論(2)。

由於 \((n - 1)s^2 = \sum_{i = 1}^{n} (x_i - \bar{x})^2 = \sum_{i = 1}^{n} x_i^2 - (\sqrt{n}\bar{x})^2 = \sum_{i = 1}^{n} y_i^2 - y_1^2 = \sum_{i = 2}^{n} y_i^2\),這證明了結論(1)。

由於 \(y_2, \cdots, y_n\) 獨立同分佈於 \(N(0, \sigma^2)\),於是:

\[\frac{(n - 1)s^2}{\sigma^2} = \sum_{i = 2}^{n} \left(\frac{y_i}{\sigma}\right)^2 \sim \chi^2(n - 1) \]

說明

$y_1, y_2, \cdots, y_n $的聯合機率密度函式,其中 $y_1, y_2, \cdots, y_n $是透過正交變換 $Y = AX \(得到的隨機變數,\)X = (x_1, x_2, \cdots, x_n)^T$是來自正態總體 \(N(\mu, \sigma^2)\)的樣本。

這個聯合機率密度函式可以分解為兩個部分:

  1. \(y_1\)的機率密度函式:$y_1 $服從均值為 $\sqrt{n}\mu $、方差為 $\sigma^2 $的正態分佈,即 $y_1 \sim N(\sqrt{n}\mu, \sigma^2) $。
  2. \(y_2, y_3, \cdots, y_n\)的聯合機率密度函式:$y_2, y_3, \cdots, y_n $相互獨立,且每個 $y_i $服從均值為0、方差為 $\sigma^2 $的正態分佈,即 $y_i \sim N(0, \sigma^2) $。

因此,我們可以將 $p(y_1, y_2, \cdots, y_n) $寫為:

\[p(y_1, y_2, \cdots, y_n) = p(y_1) \cdot p(y_2, y_3, \cdots, y_n) \]

其中,

\[p(y_1) = (2\pi\sigma^2)^{-\frac{1}{2}} \exp\left\{-\frac{1}{2\sigma^2} (y_1 - \sqrt{n}\mu)^2\right\} \]

\[p(y_2, y_3, \cdots, y_n) = (2\pi\sigma^2)^{-\frac{n-1}{2}} \exp\left\{-\frac{1}{2\sigma^2} \sum_{i=2}^{n} y_i^2\right\} \]

這表明 $y_1 $和 $y_2, y_3, \cdots, y_n $是相互獨立的。由於 $ y_1 = \sqrt{n} \bar{x} $,這進一步表明 $\bar{x} $和 $s^2 $是相互獨立的。

相關文章