統計學理論—方差分析

徐思孟發表於2020-11-10

在學習統計學賈書的過程,在第6—14章節出有許多需要理解與記憶的公式和概念,在此通過部落格的形式做一次梳理,主要內容為統計學中抽樣分佈、假設檢驗、引數估計、分類資料分析、方差分析、一元二元線性分析、時間序列分析、指數的理論知識,不足之處望多多指正。

什麼是方差分析

表面上,方差分析是檢驗多個總體均值是否相等的統計方法,但本質上它所研究的是分型別自變數對數值型自變數的影響,定義:就是通過驗證各總體均值是否相等來判定分型別自變數是否有顯著性影響。

  • 誤差型別
    (1)隨機誤差:因素的同一水平(總體)下,樣本各觀察值之間的差異
    (2)系統誤差:因素的不同水平(不同總體)之間觀察值的差異

  • 誤差計算公式
    (1)第i個總體均值: x ˉ i = ∑ j = 1 n i x i j n i ( i = 1 , 2 , ⋯   , k ) \bar{x}_{i}=\frac{\sum_{j=1}^{n_{i}} x_{i j}}{n_{i}}(i=1,2, \cdots, k) xˉi=nij=1nixij(i=1,2,,k)
    (2)總體均值: x ˉ ‾ = ∑ i = 1 k ∑ j = 1 n i x i j n = ∑ i = 1 k n x ˉ i n \overline{\bar{x}}=\frac{\sum_{i=1}^{k} \sum_{j=1}^{n_{i}} x_{i j}}{n}=\frac{\sum_{i=1}^{k} n \bar{x}_{i}}{n} xˉ=ni=1kj=1nixij=ni=1knxˉi 式中: n = n 1 + n 2 + ⋯ + n k n=n_{1}+n_{2}+\cdots+n_{k} n=n1+n2++nk

  • 一般的假設
    H 0 : μ 1 = μ 2 = μ 3 . . . = μ k H_0:\mu_1=\mu_2=\mu_3...=\mu_k H0:μ1=μ2=μ3...=μk;
    H 1 : μ 1 、 μ 2 、 μ 3 . . . μ k 不 全 相 等 H_1:\mu_1、\mu_2、\mu_3...\mu_k不全相等 H1μ1μ2μ3...μk;

單因素方差分析

  • 假設:
    (1)每個總體都應服從正態分佈;
    (2)各個總體的方差必須相同;
    (3)觀察值是獨立的。

單因素方差分析

  • 誤差計算公式
    (1)總誤差平方和SST: S S T = ∑ i = 1 k ∑ j = 1 n i ( x i j − x ˉ ‾ ) 2 S S T=\sum_{i=1}^{k} \sum_{j=1}^{n_{i}}\left(x_{i j}-\overline{\bar{x}}\right)^{2} SST=i=1kj=1ni(xijxˉ)2;自由度由n-1,總體均方和:MST=SST/n-1;
    (2)組內平方和SSE: S S E = ∑ i = 1 k ∑ j = 1 n i ( x i j − x ˉ i ) 2 S S E=\sum_{i=1}^{k} \sum_{j=1}^{n_{i}}\left(x_{i j}-\bar{x}_{i}\right)^{2} SSE=i=1kj=1ni(xijxˉi)2;自由度由k-1,組內均方和:MSE=SSE/k-1;
    (3)組間平方和SSA: S S A = ∑ i = 1 k ∑ j = 1 n i ( x ˉ i − x ˉ ‾ ) 2 S S A=\sum_{i=1}^{k} \sum_{j=1}^{n_{i}}\left(\bar{x}_{i}-\overline{\bar{x}}\right)^{2} SSA=i=1kj=1ni(xˉixˉ)2 ;自由度為n-k,總體均方和:MSA=SSA/n-k;
    (4)SST = SSA + SSE。

  • 檢驗統計量計算公式: F = M S A M S E ∼ F ( k − 1 , n − k ) F=\frac{M S A}{M S E} \sim F(k-1, n-k) F=MSEMSAF(k1,nk)

  • 單因素方差分析表

在這裡插入圖片描述

  • 關係強度: R 2 = S S A S S T R^2=\frac{SSA}{SST} R2=SSTSSA:自變數對因變數的影響效應。

多重比較

  • 作用:檢驗兩個總體均值是否相等
  • t分佈檢驗統計量計算公式:
    L S D = t α / 2 ∗ M S E ( 1 n i + 1 n j ) L S D=t_{\alpha / 2} *\sqrt{M S E\left(\frac{1}{n_{i}}+\frac{1}{n_{j}}\right)} LSD=tα/2MSE(ni1+nj1)
  • 決策:
    ∣ x ˉ i − x ˉ j ∣ > L S D \left|\bar{x}_{i}-\bar{x}_{j}\right|>L S D xˉixˉj>LSD,拒絕H0,反之接受。

雙因素方差分析

  • 假設
    (1)每個總體都服從正態分佈;
    (2)各個總體的方差必須相同;
    (3)觀察值是獨立的。

無互動作用的雙因素方差分析

  • 誤差計算公式
    (1)總誤差平方和SST: S S T = ∑ i = 1 k ∑ j = 1 n i ( x i j − x ˉ ‾ ) 2 S S T=\sum_{i=1}^{k} \sum_{j=1}^{n_{i}}\left(x_{i j}-\overline{\bar{x}}\right)^{2} SST=i=1kj=1ni(xijxˉ)2;自由度由n-1,總體均方和:MST=SST/kr-1;
    (2)組內平方和SSE: S S E = ∑ i = 1 k ∑ j = 1 n i ( x i j − x ˉ i ) 2 S S E=\sum_{i=1}^{k} \sum_{j=1}^{n_{i}}\left(x_{i j}-\bar{x}_{i}\right)^{2} SSE=i=1kj=1ni(xijxˉi)2;自由度由k-1,組內均方和:MSE=SSE/(k-1)(r-1);
    (3)列因素誤差平方和: S S C = ∑ i = 1 k ∑ j = 1 r ( x ˉ j − x ˉ ) 2 S S C=\sum_{i=1}^{k} \sum_{j=1}^{r}\left(\bar{x}_{j}-\bar{x}\right)^{2} SSC=i=1kj=1r(xˉjxˉ)2自由度由k-1,組內均方和:MSC=SSC/r-1;;
    (4)行因素誤差平方和: S S R = ∑ i = 1 k ∑ j = 1 r ( x ˉ i . − x ˉ ) 2 S S R=\sum_{i=1}^{k} \sum_{j=1}^{r}\left(\bar{x}_{i .}-\bar{x}\right)^{2} SSR=i=1kj=1r(xˉi.xˉ)2自由度由k-1,組內均方和:MSR=SSR/k-1;
    (5)SST = SSR +SSC+SSE。

  • F分佈檢驗量計算公式:
    F R = M S R M S E ∼ F ( k − 1 , ( k − 1 ) ( r − 1 ) ) F_{\mathrm{R}}=\frac{M S R}{M S E} \sim F(k-1,(k-1)(r-1)) FR=MSEMSRF(k1,(k1)(r1))
    F C = M S C M S E ∼ F ( r − 1 , ( k − 1 ) ( r − 1 ) ) F_{\mathrm{C}}=\frac{M S C}{M S E} \sim F(r-1,(k-1)(r-1)) FC=MSEMSCF(r1,(k1)(r1))

  • 方差分析表:
    在這裡插入圖片描述

  • 關係強度: R 2 = S S C + S S R S S T R^2=\frac{SSC+SSR}{SST} R2=SSTSSC+SSR:自變數對因變數的影響效應。

有互動作用的雙因素方差分析

  • 誤差計算公式
    (1)總誤差平方和SST: S S T = ∑ i = 1 k ∑ j = 1 r ∑ l = 1 m ( x i j l − x ˉ ‾ ) 2 S S T=\sum_{i=1}^{k} \sum_{j=1}^{r} \sum_{l=1}^{m}\left(x_{i j l}-\overline{\bar{x}}\right)^{2} SST=i=1kj=1rl=1m(xijlxˉ)2;自由度由n-1,總體均方和:MST=SST/kr-1;
    (2)組內平方和SSE: S S E = S S T − S S R − S S C − S S R C S S E=SST-SSR-SSC-SSRC SSE=SSTSSRSSCSSRC;自由度由k-1,組內均方和:MSE=SSE/kr(m-1);
    (3)列因素誤差平方和: S S C = m ∑ i = 1 k ∑ j = 1 r ( x ˉ j − x ˉ ) 2 S S C=m\sum_{i=1}^{k} \sum_{j=1}^{r}\left(\bar{x}_{j}-\bar{x}\right)^{2} SSC=mi=1kj=1r(xˉjxˉ)2自由度由k-1,組內均方和:MSC=SSC/r-1;;
    (4)行因素誤差平方和: S S R = m ∑ i = 1 k ∑ j = 1 r ( x ˉ i . − x ˉ ) 2 S S R=m\sum_{i=1}^{k} \sum_{j=1}^{r}\left(\bar{x}_{i .}-\bar{x}\right)^{2} SSR=mi=1kj=1r(xˉi.xˉ)2自由度由k-1,組內均方和:MSR=SSR/k-1;
    (5) SSRC ⁡ = m ∑ i = 1 k ∑ j = 1 r ( x ˉ i j − x ˉ i . − x ˉ . j + x ˉ ‾ ) 2 \operatorname{SSRC}=m \sum_{i=1}^{k} \sum_{j=1}^{r}\left(\bar{x}_{i j}-\bar{x}_{i .}-\bar{x}_{. j}+\overline{\bar{x}}\right)^{2} SSRC=mi=1kj=1r(xˉijxˉi.xˉ.j+xˉ)2自由度由(k-1)(r-1),組內均方和:MSRC=SSRC/(k-1*)(r-1);
    (6)SST = SSR +SSC+SSE+SSRC。
    同上計算得到相關F分佈統計量。
  • 誤差分析表
    在這裡插入圖片描述

相關文章