資料分析模型 第三章

苦洲發表於2021-01-02

引數估計,偏差和評測估計

一. 引數估計

引數估計(parameter estimation). 正如第一章模型的介紹中所提到的,一般當我們手上有了一大把相關的資料,我們想做預測,我們要做兩件事情,第一件事情是選取適合的模型,例如多項式模型,神經網路模型,樹模型,等等這種泛化模型(以一擋百的模型),這部分內容暫且按下不表.在資料分析模型這課中,著重關注第二件事情,引數估計,即相關模型給定的情況下對於模型的引數估計.小弟認為,引數估計可以分為兩大派別:
第一派別:利用給定的資料來估計引數。在這派別裡的方法可謂百花齊放,例如多均值估計利用詹姆斯斯丁估計(James-stein estimation)(收縮估計). 在詹姆斯丁估計的基礎上又有林德利改變估計(Lindely modification). 具有懲罰性的嶺迴歸估計(Ridge regression)和拉索迴歸估計(Lasso regression)(稀疏估計)等等.
第二派別:基於給定的資料,利用概率來估計引數,例如最大似然估計和貝葉斯估計(先驗和後驗)
在資料分析模型這門課,只涉及一些很基礎的引數估計方法,小弟在前面講的這麼多,只是希望大家在看引數估計的知識之前有一個大體的概念,在資料分析模型這課裡並不需要過多瞭解。
但無論是什麼派別,對於引數的估計自然都會相關與資料的函式公式.
舉個例子
如果資料 y 1 , y 2 , . . . . y n y_1,y_2,....y_n y1,y2,....yn服從一個分佈 p ( y ∣ θ ) p(y|\theta) p(yθ),如果我們要估計 θ \theta θ,那麼我們估計的 θ ˉ = f ( y 1 , y 2 , . . . , y n ) \bar\theta=f(y_1,y_2,...,y_n) θˉ=f(y1,y2,...,yn).

最小二乘法(Least Square)
最小二乘法屬於第一派別,估計的引數是等於你的資料組成的一種數學函式表示式。最小二乘法(又稱最小平方法)是一種數學優化技術。它通過最小化誤差的平方和,來尋找資料的最佳函式匹配.

線性模型和最小二乘法的引數估計(linear model &least square)
線性模型:
給定一個輸入變數X=(X1,X2,…,Xn),預測輸出 Y ˉ \bar{Y} Yˉ.
Y ˉ = β 0 ˉ + ∑ j = 1 n X j β j ˉ \bar{Y}=\bar{\beta_0}+\sum_{j=1}^{n}X_j\bar{\beta_j} Yˉ=β0ˉ+j=1nXjβjˉ
這是一個多元線性模型,它是由多個一元線性模型相加而成的,即:
Y ˉ = β 0 ˉ + ∑ j = 1 n X j β j ˉ = ∑ i = 1 n y i ˉ = { y 1 ˉ = β ˉ 1 X 1 + ξ 1 y 2 ˉ = β ˉ 2 X 2 + ξ 2 y 3 ˉ = β ˉ 3 X 3 + ξ 3 . . . . . . . . . . . . . . . . . y n ˉ = β ˉ n X n + ξ n , ∑ i = 1 n ξ i = β ˉ 0 \bar{Y}=\bar{\beta_0}+\sum_{j=1}^{n}X_j\bar{\beta_j}=\sum_{i=1}^{n}\bar{y_i} = \begin{cases} \bar{y_1}=\bar\beta_1X1+\xi_1\\ \bar{y_2}=\bar\beta_2X2+\xi_2 \\ \bar{y_3}=\bar\beta_3X3+\xi_3 \\ ................. \\ \bar{y_n}=\bar\beta_nXn+\xi_n \\ \end{cases},\sum_{i=1}^{n}\xi_i=\bar\beta_0 Yˉ=β0ˉ+j=1nXjβjˉ=i=1nyiˉ=y1ˉ=βˉ1X1+ξ1y2ˉ=βˉ2X2+ξ2y3ˉ=βˉ3X3+ξ3.................ynˉ=βˉnXn+ξn,i=1nξi=βˉ0
那麼我們利用最小二乘法,找真值和預測值的最小誤差的平方和,從而估計引數,即:
y i y_i yi為真值
R S S ( β ˉ 0 , β ˉ 1 , β ˉ 2 , . . . . β ˉ n ) = ∑ i = 1 N ( y i − ( β 0 + ∑ j = 1 n X j β ˉ j ) ) 2 RSS(\bar\beta_0,\bar\beta_1,\bar\beta_2,....\bar\beta_n)=\sum_{i=1}^{N}(y_i-({\beta_0}+\sum_{j=1}^{n}X_j{\bar\beta_j}))^2 RSS(βˉ0,βˉ1,βˉ2,....βˉn)=i=1N(yi(β0+j=1nXjβˉj))2
如果我們當然希望預測值和真值越像越好,那麼這個RSS(·)的值需要儘可能的小.這裡提個題外話RSS的英語是root-sum-square即平方公差法。
如果我們要估計 β 0 ˉ \bar{\beta_0} β0ˉ,我們需要找到 β 0 ˉ \bar{\beta_0} β0ˉ其滿足RSS(·)為最小值,那麼利用
求偏導的方式得出 β 0 ˉ \bar{\beta_0} β0ˉ,即:
d R S S ( ⋅ ) d β 0 ˉ = 0 \frac{dRSS(·)}{d\bar{\beta_0}}=0 dβ0ˉdRSS()=0
如果我們要估計 β n ˉ \bar{\beta_n} βnˉ,則:
d R S S ( ⋅ ) d β n ˉ = 0 \frac{dRSS(·)}{d\bar{\beta_n}}=0 dβnˉdRSS()=0
它的想法是找到一個斜率為0的RSS(·)值,我們一般預設斜率為0的RSS(·)值為最低值也就是說有且僅有一個下弧線. 對沒錯,這個預設實在是太苛刻了,但我們不需要思考太多,因為這個問題很大,涉及了凸面問題和非凸面問題,區域性最小值,全域性最小值,以及如何最快找到最低值的問題例如深度學習裡的梯度下降,涅斯捷羅夫衝量等等。也不是這門課單單這麼要求的,只要利用最小二乘法來估計引數,均預設斜率為0處的RSS(·)值為最低值.
一般我們會把上述所有公式寫成矩陣的形式,有利於程式碼的書寫,也很簡潔漂亮.
線性模型的矩陣寫法:
Y ˉ = X T β ˉ \bar{Y}=X^{T}\bar{\beta} Yˉ=XTβˉ
X = [ x 1 x 2 x 3 . . . x n ] X=\begin{bmatrix} x_1 \\ x_2 \\ x_3\\ ...\\ x_n\\ \end{bmatrix} X=x1x2x3...xn X T X^T XT X X X的逆矩陣即 [ x 1 , x 2 . . . , x n ] \begin{bmatrix} x_1,x_2...,x_n\\ \end{bmatrix} [x1,x2...,xn] , β ˉ = [ β 0 ˉ β 0 ˉ . . . β n ˉ ] ,\bar{\beta}=\begin{bmatrix} \bar{\beta_0}\\ \bar{\beta_0}\\ ...\\ \bar{\beta_n}\\ \end{bmatrix} βˉ=β0ˉβ0ˉ...βnˉ,我們會把截距 β 0 ˉ \bar{\beta_0} β0ˉ放入 β ˉ \bar{\beta} βˉ列矩陣中. 那麼我們的 X T = [ 1 , x 1 , x 2 , . . . , x n ] , Y ˉ = [ β 0 ˉ + x 1 β ˉ 1 + x 2 β ˉ 2 + . . . + x n β ˉ n ] X^T=\begin{bmatrix} 1,x_1,x_2,...,x_n\\\end{bmatrix} ,\bar{Y}=[\bar{\beta_{0}}+x_1\bar\beta_1+x_2\bar\beta_2+...+x_n\bar\beta_n] XT=[1,x1,x2,...,xn],Yˉ=[β0ˉ+x1βˉ1+x2βˉ2+...+xnβˉn].
那麼利用最小二乘法,找真值和預測值的最小誤差的平方和, 我們的RSS(·)為:
R S S ( β ˉ ) = ( Y − X β ˉ ) T ( Y − X β ˉ ) RSS(\bar\beta)=(Y-X\bar\beta)^T(Y-X\bar\beta) RSS(βˉ)=(YXβˉ)T(YXβˉ)
同樣計算 β ˉ \bar\beta βˉ的偏導,即: d R S S ( β ˉ ) d β ˉ = 2 X T ( Y − X β ˉ ) = 0 \frac{dRSS(\bar\beta)}{d\bar\beta}=2X^T(Y-X\bar\beta)=0 dβˉdRSS(βˉ)=2XT(YXβˉ)=0
那麼化簡 X T ( Y − X β ˉ ) = 0 → X T Y − X T X β ˉ = 0 → X T Y − I β ˉ = 0 → β ˉ = I − 1 X Y → β ˉ = ( X T X ) − 1 X Y X^T(Y-X\bar\beta)=0→X^TY-X^TX\bar\beta=0→X^TY-I\bar\beta=0→\bar\beta=I^{-1}XY→\bar\beta=(X^TX)^{-1}XY XT(YXβˉ)=0XTYXTXβˉ=0XTYIβˉ=0βˉ=I1XYβˉ=(XTX)1XY
這裡的 I I I為單位矩陣.所以在寫R或者python程式碼的時候,我們就寫一個 β ˉ = ( X T X ) − 1 X Y \bar\beta=(X^TX)^{-1}XY βˉ=(XTX)1XY,就可以直接估計出所有的引數了( β ˉ \bar\beta βˉ矩陣的形式).

正態分佈和最小二乘法(normal distribution &least square)
假設這裡有一組班級身高的樣本 y = ( 1.75 , 1.64 , 1.81 , 1.55 , 1.51 , 1.67 , 1.83 , 1.63 , 1.83 , 1.63 , 1.72 ) y=(1.75,1.64,1.81,1.55,1.51,1.67,1.83,1.63,1.83,1.63,1.72) y=(1.75,1.64,1.81,1.55,1.51,1.67,1.83,1.63,1.83,1.63,1.72)單位米,這組身高我們認為符合正態分佈,估計正態分佈的倆個引數 μ , σ 2 \mu,\sigma^2 μ,σ2.
那麼利用最小二乘法的定義找最小化誤差的平方和,既然這組樣本身高符合正態分佈,那麼我們希望的我們均值身高 μ \mu μ要跟這些樣本身高的距離要足夠的近。
μ ˉ = arg min ⁡ μ S S E ( μ ) = arg min ⁡ μ ∑ i = 1 n ( y i − μ ) 2 \bar{\mu}=\argmin_{\mu}SSE(\mu)=\argmin_{\mu}{\sum_{i=1}^{n}(y_i-\mu)^2} μˉ=μargminSSE(μ)=μargmini=1n(yiμ)2
同樣,我們還是求 μ \mu μ導數,找斜率為0,預設斜率為0,SSE(·)的值為最低.SSE是sum squared error平方誤差和的英語縮寫.
d S S E ( μ ) d μ = ∑ i = 1 n d ( y i − μ ) 2 d μ = − 2 ∑ i = 1 n ( y i − μ ) = − 2 ∑ i = 1 n y i + 2 n μ = 0 \frac{dSSE(\mu)}{d\mu}=\sum_{i=1}^{n}\frac{d(y_i-\mu)^2}{d\mu}=-2\sum_{i=1}^{n}(y_i-\mu)=-2\sum_{i=1}^{n}y_i+2n\mu=0 dμdSSE(μ)=i=1ndμd(yiμ)2=2i=1n(yiμ)=2i=1nyi+2nμ=0
μ ˉ = 1 n ∑ i = 1 n y i \bar{\mu}=\frac{1}{n}\sum_{i=1}^{n}y_i μˉ=n1i=1nyi,這也叫做樣本均值(sample mean).

接下來我們估計 σ 2 \sigma^2 σ2,這個就容易多了,利用方差的定義即可:
σ ˉ 2 = 1 n ∑ i = 1 n ( y i − μ ˉ ) 2 \bar\sigma^2=\frac{1}{n}\sum_{i=1}^{n}(y_i-\bar{\mu})^2 σˉ2=n1i=1n(yiμˉ)2
那麼 σ ˉ = 1 n ∑ i = 1 n ( y i − μ ˉ ) 2 \bar\sigma=\sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_i-\bar\mu)^2} σˉ=n1i=1n(yiμˉ)2 ,這就是樣本標準差(sample standard deviation).

最大似然估計(Maximum Likelihood estimation)
最大似然估計由1920年的費雪提出的,被廣泛應用在很多概率分佈模型的估計引數上面,記住費雪這個大哥我們之後還會學習他的很多理論,例如費雪資訊等。正如小弟之前所提到的,最大似然估計是第二個派別利用概率的角度來估計模型的引數.
假如你有n個y即 y 1 , y 2 , . . . , y n y_1,y_2,...,y_n y1,y2,...,yn符合某個概率分佈 p ( y ∣ θ ) p(y|\theta) p(yθ),那麼你有n個對應的概率即 p ( y 1 ∣ θ ) , p ( y 2 ∣ θ ) , . . . , p ( y n ∣ θ ) p(y_1|\theta),p(y_2|\theta),...,p(y_n|\theta) p(y1θ),p(y2θ),...,p(ynθ),現在我們要估計引數 θ \theta θ的值利用這些資料.因為這些點即n個y都是獨立的,每個點都有對應的概率,那麼我們希望這些點能夠產生用於這個引數 θ \theta θ的分佈的概率要最大.於是我們將這些點的概率乘起來得到這個引數 θ \theta θ的分佈的產生概率即:
p ( y ∣ θ ) = Π i = 1 n p ( y i ∣ θ ) p(y|\theta)=\Pi_{i=1}^{n}p(y_i|\theta) p(yθ)=Πi=1np(yiθ)
Π \Pi Π是連乘.
那麼我希望這個 p ( y ∣ θ ) p(y|\theta) p(yθ)分佈的產生概率要最大即:
θ ˉ = arg max ⁡ θ { p ( y ∣ θ ) } \bar\theta=\argmax_\theta \{p(y|\theta)\} θˉ=θargmax{p(yθ)}
p ( y ∣ θ ) p(y|\theta) p(yθ)也被稱為似然方程(likelihood function)。解上述這個公式跟最小二乘法一樣,依舊是對 p ( y ∣ θ ) p(y|\theta) p(yθ) θ \theta θ導數,斜率為0,但預設為最大值也就是說有且僅有一個上弧線.但是在一般我們會面對奇形怪狀的各種概率分佈,為了計算方便我們會在前面加 “-log”,這個log很精髓,它不僅把帶有指數的概率分佈的指數取了下來方便運算,並且log還是單調函式不影響我們 p ( y ∣ θ ) p(y|\theta) p(yθ)的函式影像,那麼變為找最小值,斜率為0,有且僅有一條下弧線.,那麼我們的公式變為:
θ ˉ = arg min ⁡ θ { − l o g p ( y ∣ θ ) } \bar\theta=\argmin_\theta \{-logp(y|\theta)\} θˉ=θargmin{logp(yθ)}

這個 − l o g p ( y ∣ θ ) -logp(y|\theta) logp(yθ)被稱為負log似然(negative log-likelihood)
有時候我們經常用 L ( y ∣ θ ) L(y|\theta) L(yθ)來代表 − l o g p ( y ∣ θ ) -logp(y|\theta) logp(yθ)負log似然。
有時候我們也會用 l o g p ( y ∣ θ ) logp(y|\theta) logp(yθ)來代替不一定要加負號,負號僅僅為了方便運算.

似然估計正態分佈(ML estimation of normal distribution)
給了 y = ( y 1 , . . . . , y n ) y=(y_1,....,y_n) y=(y1,....,yn),符合正態分佈,估計 μ , σ \mu,\sigma μ,σ
那麼該似然方程為:
p ( y ∣ μ , σ 2 ) = Π i = 1 n p ( y i ∣ θ ) = ( 1 2 π σ 2 ) 2 e x p ( − 1 2 σ 2 ∑ i = 1 n ( μ − y i ) 2 ) p(y|\mu,\sigma^2)=\Pi_{i=1}^{n}p(y_i|\theta)=(\frac{1}{2\pi\sigma^2})^2exp(-\frac{1}{2\sigma^2}\sum_{i=1}^{n}(\mu-y_i)^2) p(yμ,σ2)=Πi=1np(yiθ)=(2πσ21)2exp(2σ21i=1n(μyi)2)
那麼負log似然為:
L ( y ∣ μ , σ 2 ) = − l o g p ( y ∣ μ , σ 2 ) = n 2 l o g ( 2 π σ 2 ) + 1 2 σ 2 ∑ i = 1 n ( y i − μ ) 2 L(y|\mu,\sigma^2)=-logp(y|\mu,\sigma^2)=\frac{n}{2}log(2\pi\sigma^2)+\frac{1}{2\sigma^2}\sum_{i=1}^{n}(y_i-\mu)^2 L(yμ,σ2)=logp(yμ,σ2)=2nlog(2πσ2)+2σ21i=1n(yiμ)2

求偏導:
∂ L ( y ∣ μ , σ 2 ) ∂ μ = 0 \frac{\partial L(y|\mu,\sigma^2)}{\partial \mu}=0 μL(yμ,σ2)=0
∂ L ( y ∣ μ , σ 2 ) ∂ σ = 0 \frac{\partial L(y|\mu,\sigma^2)}{\partial \sigma}=0 σL(yμ,σ2)=0

估計 μ ˉ \bar\mu μˉ:
∂ L ( y ∣ μ , σ 2 ) ∂ μ = − 1 σ 2 ∑ i = 1 n ( y i − μ ) = − 1 σ 2 ∑ i = 1 n y i + n μ σ 2 = 0 \frac{\partial L(y|\mu,\sigma^2)}{\partial \mu}=-\frac{1}{\sigma^2}\sum_{i=1}^{n}(y_i-\mu)=-\frac{1} {\sigma^2}\sum_{i=1}^{n}y_i+\frac{n\mu}{\sigma^2}=0 μL(yμ,σ2)=σ21i=1n(yiμ)=σ21i=1nyi+σ2nμ=0

得:
μ ˉ = 1 n ∑ i = 1 n y i \bar\mu=\frac{1}{n}\sum_{i=1}^{n}y_i μˉ=n1i=1nyi樣本均值

估計 σ ˉ \bar\sigma σˉ:
∂ L ( y ∣ μ , σ 2 ) ∂ σ = n σ − 1 σ 3 ∑ i = 1 n ( y i − μ ) 2 = 0 \frac{\partial L(y|\mu,\sigma^2)}{\partial \sigma}=\frac{n}{\sigma}-\frac{1}{\sigma^3}\sum_{i=1}^{n}(y_i-\mu)^2=0 σL(yμ,σ2)=σnσ31i=1n(yiμ)2=0

得:
σ 2 = 1 n ∑ i = 1 n ( y − μ ) 2 \sigma^2=\frac{1}{n}\sum_{i=1}^{n}(y-\mu)^2 σ2=n1i=1n(yμ)2
將我們之前估計的 μ ˉ \bar\mu μˉ帶入 μ \mu μ中即:
σ 2 = 1 n ∑ i = 1 n ( y − μ ˉ ) 2 \sigma^2=\frac{1}{n}\sum_{i=1}^{n}(y-\bar\mu)^2 σ2=n1i=1n(yμˉ)2,那麼 σ ˉ = 1 n ∑ i = 1 n ( y i − μ ˉ ) 2 \bar\sigma=\sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_i-\bar\mu)^2} σˉ=n1i=1n(yiμˉ)2 樣本標準差

假設這裡有一組班級身高的樣本 y = ( 1.75 , 1.64 , 1.81 , 1.55 , 1.51 , 1.67 , 1.83 , 1.63 , 1.83 , 1.63 , 1.72 ) y=(1.75,1.64,1.81,1.55,1.51,1.67,1.83,1.63,1.83,1.63,1.72) y=(1.75,1.64,1.81,1.55,1.51,1.67,1.83,1.63,1.83,1.63,1.72)單位米,符合正態分佈,那麼樣本均值為 μ ˉ = 1.6789 \bar\mu=1.6789 μˉ=1.6789,樣本標準差為 σ ˉ = 1 9 ∑ i = 1 9 ( y i − 1.6789 ) 2 = 0.1032 \bar\sigma=\sqrt{\frac{1}{9}\sum_{i=1}^{9}(y_i-1.6789)^2}=0.1032 σˉ=91i=19(yi1.6789)2 =0.1032
影像為:
在這裡插入圖片描述
我們可以清楚看見我們的資料樣本 y = ( 1.75 , 1.64 , 1.81 , 1.55 , 1.51 , 1.67 , 1.83 , 1.63 , 1.83 , 1.63 , 1.72 ) y=(1.75,1.64,1.81,1.55,1.51,1.67,1.83,1.63,1.83,1.63,1.72) y=(1.75,1.64,1.81,1.55,1.51,1.67,1.83,1.63,1.83,1.63,1.72)大致分佈在 ( μ ˉ − 2 σ ˉ , μ ˉ + 2 σ ˉ ) ≈ ( 1.47 , 1.88 ) (\bar\mu-2\bar\sigma,\bar\mu+2\bar\sigma)≈(1.47,1.88) (μˉ2σˉ,μˉ+2σˉ)(1.47,1.88)的正態分佈之間.
如果有問身高在總體裡1.6m到1.8m之間的概率是多少,那麼 P ( 1.6 < X < 1.8 ∣ μ ˉ = 1.6789 , σ ˉ 2 = 0.103 2 2 ) ≈ 0.664 P(1.6<X<1.8|\bar\mu=1.6789,\bar\sigma^2=0.1032^2)≈0.664 P(1.6<X<1.8μˉ=1.6789,σˉ2=0.10322)0.664

似然估計泊松分佈(ML estimation of Poisson)
除了連續函式,我們也可以用似然估計離散函式,泊松分佈的引數 λ \lambda λ

負log似然:
L ( y ∣ λ ) = − ∑ i = 1 n y i l o g λ + n λ + ∑ i = 1 n l o g y i ! L(y|\lambda)=-\sum_{i=1}^{n}y_ilog\lambda+n\lambda+\sum_{i=1}^{n}logy_i! L(yλ)=i=1nyilogλ+nλ+i=1nlogyi!
求導:
d L ( y ∣ l a m b d a ) d λ = − 1 λ ∑ i = 1 n y i = 0 \frac{dL(y|lambda)}{d\lambda}=-\frac{1}{\lambda}\sum_{i=1}^{n}y_i=0 dλdL(ylambda)=λ1i=1nyi=0
得:
λ ˉ = 1 n ∑ i = 1 n y i \bar\lambda=\frac{1}{n}\sum_{i=1}^{n}y_i λˉ=n1i=1nyi

似然估計伯努利分佈(ML estimation of Poisson)
log似然:
L ( x 1 , x 2 , . . . x n ∣ θ ) = ∑ i = 1 n x i l o g θ + ( n − ∑ i = 1 n x i ) l o g ( 1 − θ ) L(x_1,x_2,...x_n|\theta)=\sum_{i=1}^{n}x_ilog\theta+(n-\sum_{i=1}^{n}x_i)log(1-\theta) L(x1,x2,...xnθ)=i=1nxilogθ+(ni=1nxi)log(1θ)
求導:
d L ( x 1 , x 2 , . . . x n ∣ θ ) d θ = ∑ i = 1 n x i θ − ( n − ∑ i = 1 n x i ) 1 − θ \frac{dL(x_1,x_2,...x_n|\theta)}{d\theta}=\frac{\sum_{i=1}^{n}x_i}{\theta}-\frac{(n-\sum_{i=1}^{n}x_i)}{1-\theta} dθdL(x1,x2,...xnθ)=θi=1nxi1θ(ni=1nxi)
得:
θ ˉ = ∑ i = 1 n x i n \bar\theta=\frac{\sum_{i=1}^{n}x_i}{n} θˉ=ni=1nxi ∑ i = 1 n x i \sum_{i=1}^{n}x_i i=1nxi為一共成功得次數,n為總共嘗試的次數.

二. 偏差和評測估計

評測估計(evaluating estimators)不是一種估計的方法,而是比較不同的估計方法,從而抉擇用哪個估計方法.
2.1 取樣統計(sampling statistics)
很明顯,我們有很多的引數的估計方法,那麼,我們如何比較不同引數估計呢,舉個例子, σ ˉ 1 2 = ( 1 n − 1 ) ∑ i = 1 n ( y i − μ ˉ ) 2 \bar\sigma_1^2=(\frac{1}{n-1})\sum_{i=1}^{n}(y_i-\bar\mu)^2 σˉ12=(n11)i=1n(yiμˉ)2 σ ˉ 2 2 = ( 1 n ) ∑ i = 1 n ( y i − μ ˉ ) 2 \bar\sigma_2^2=(\frac{1}{n})\sum_{i=1}^{n}(y_i-\bar\mu)^2 σˉ22=(n1)i=1n(yiμˉ)2那個對於方差的估計, σ ˉ 1 2 \bar\sigma_1^2 σˉ12 σ ˉ 2 2 \bar\sigma_2^2 σˉ22哪個估計更好點呢。比較不同的估計,我們經常會比較它們內在的性質,但這些性質經常涉及取樣統計中的一些概念。換句話說,反覆從總體抽樣的樣本中,進而比較這些估計的表現情況,從而選取較好的引數估計.
總 體 ( p o p u l a t i o n ) → 取 樣 → 樣 本 ( s a m p l e ) → 估 計 參 數 → 模 型 ( 正 態 分 布 , 泊 鬆 . . . ) 總體(population)→_{取樣}→樣本(sample)→_{估計引數}→模型(正態分佈,泊松...) (population)(sample)(...)
樣本均值分佈(sample mean distribution)
假如我們這裡有一個總體很大的人群身高單位米,總體的人群身高服從正態分佈N( μ \mu μ=1.65, σ 2 \sigma^2 σ2=0.1),我們現在隨機抽取樣本一組有5個即y=(1.620,1.652,1.623,1.475,1.621)利用我們的似然估計我們知道 μ ˉ \bar\mu μˉ= y ˉ \bar y yˉ= 1 5 ∑ i = 1 5 y i \frac{1}{5}\sum_{i=1}^{5}y_i 51i=15yi=1.598 樣本均值.接下來我們多取幾組,每組樣本有5個資料樣本.

第一組/第一組樣本: y 1 = ( 1.620 , 1.652 , 1.623 , 1.475 , 1.621 ) → μ ˉ 1 = y ˉ 1 = 1.598 y^1=(1.620,1.652,1.623,1.475,1.621) →\bar\mu_1=\bar y_1=1.598 y1=(1.620,1.652,1.623,1.475,1.621)μˉ1=yˉ1=1.598
第二組: y 2 = ( 1.729 , 1.517 , 1.417 , 1.505 , 1.683 ) → μ ˉ 2 = y ˉ 2 = 1.570 y^2=(1.729, 1.517, 1.417, 1.505, 1.683) →\bar\mu_2=\bar y_2=1.570 y2=(1.729,1.517,1.417,1.505,1.683)μˉ2=yˉ2=1.570
第三組: y 3 = ( 1.689 , 1.695 , 1.637 , 1.668 , 1.602 ) → μ ˉ 3 = y ˉ 3 = 1.658 y^3=(1.689, 1.695, 1.637, 1.668, 1.602) →\bar\mu_3=\bar y_3=1.658 y3=(1.689,1.695,1.637,1.668,1.602)μˉ3=yˉ3=1.658
第四組: y 4 = ( 1.736 , 1.513 , 1.695 , 1.565 , 1.616 ) → μ ˉ 4 = y ˉ 4 = 1.625 y^4=(1.736, 1.513, 1.695, 1.565, 1.616) →\bar\mu_4=\bar y_4=1.625 y4=(1.736,1.513,1.695,1.565,1.616)μˉ4=yˉ4=1.625
第五組: y 5 = ( 1.705 , 1.753 , 1.538 , 1.776 , 1.716 ) → μ ˉ 5 = y ˉ 5 = 1.697 y^5=(1.705, 1.753, 1.538, 1.776, 1.716) →\bar\mu_5=\bar y_5=1.697 y5=(1.705,1.753,1.538,1.776,1.716)μˉ5=yˉ5=1.697


當然了,利用似然估計,每組都會有不同的樣本均值.接下來我們畫圖,x軸為樣本均值(sample mean),y軸為各個樣本均值出現的頻率(frequency)即出現的概率,如下圖在這裡插入圖片描述
這裡有1,000,000組樣本,每組5個,該圖即為樣本分佈。圖中的樣本分佈的均值恰巧等於身高總體的正態分佈均值=1.65(X軸為1.65處,正態分佈以 μ \mu μ對稱).
正如小弟之前所說,對於引數的估計其實是等於相關資料的一個函式公式.我們利用似然估計的 μ ˉ = Y ˉ = 1 n ∑ i = 1 n Y i \bar\mu=\bar Y=\frac{1}{n}\sum_{i=1}^{n}Y_i μˉ=Yˉ=n1i=1nYi中每個 Y i Y_i Yi都服從總體的正態分佈N( μ \mu μ=1.65, σ 2 \sigma^2 σ2=0.1).

再利用第二章所講的正態分佈具有的幾個性質:
1.如果 Y 1 ~ N ( μ 1 , σ 1 2 ) Y_1~N(\mu_1,\sigma_1^2) Y1N(μ1,σ12), Y 2 ~ N ( μ 2 , σ 2 2 ) Y_2~N(\mu_2,\sigma_2^2) Y2N(μ2,σ22) Y 1 + Y 2 ~ N ( μ 1 + μ 2 , σ 1 2 + σ 2 2 ) Y_1+Y_2~N(\mu_1+\mu_2,\sigma_1^2+\sigma_2^2) Y1+Y2N(μ1+μ2,σ12+σ22)

2.如果 Y ~ N ( μ , σ 2 ) Y~N(\mu,\sigma^2) YN(μ,σ2) Y n ~ N ( μ n , ( σ n ) 2 ) \frac{Y}{n}~N(\frac{\mu}{n},(\frac{\sigma}{n})^2) nYN(nμ,(nσ)2) 切記是針對引數進行改變,而不是 σ 2 n \frac{\sigma^2}{n} nσ2,推導也很簡單, V [ Y n ] = ( 1 n ) 2 V [ Y ] = ( σ n ) 2 V[\frac{Y}{n}]=(\frac{1}{n})^2V[Y]=(\frac{\sigma}{n})^2 V[nY]=(n1)2V[Y]=(nσ)2.

那麼,在我們該樣本分佈中,利用似然估計得到的均值 μ ˉ = Y ˉ ~ N ( μ , σ 2 n ) \bar\mu=\bar Y~N(\mu,\frac{\sigma^2}{n}) μˉ=YˉN(μ,nσ2) ,那麼我們知道 E [ μ ˉ ] = μ = 1.65 E[\bar\mu]=\mu=1.65 E[μˉ]=μ=1.65,恰巧1.65等於身高總體的正態分佈均值, 所以說利用最小二乘法或者似然估計正態分佈的均值是準確無誤的.
另外我們也可以利用標準正態分佈來畫出該樣本均值分佈,因為標準正態隨機變數為 Y ˉ − μ σ / n ~ N ( 0 , 1 ) \frac{\bar Y-\mu}{{\sigma}/\sqrt{n}}~N(0,1) σ/n YˉμN(0,1)第二章的內容.

到這裡大家應該明白取樣統計中的樣本分佈是極其重要的,它經常用在:
1.置信區間(confidence intervals)
2.假設檢驗(hypothesis testing)
3.評測估計或者比較估計(evaluate estimators)
1和2後續會講,在這一章中我們著重看看第三點.

2.2評測估計(evaluating estimators)
我們一般會注意估計的這麼幾種性質從而比較不同的估計
1.偏差(bias):哪個更貼近真實的引數或者總體的引數
2.方差(variance):哪個估計的引數變化更大,哪個引數變化更小點.

估計的偏差(bias of estimator)
偏差就是指估計的引數和真實的引數差多少的意思,估計的偏差決定了你是否過飽和估計你的真實引數.這也將影響你是否過飽和(overestimates)預測。
如果 Y = ( Y 1 , Y 2 , . . . . , Y n ) Y=(Y_1,Y_2,....,Y_n) Y=(Y1,Y2,....,Yn)是我們的資料, θ ˉ ( Y ) \bar\theta(Y) θˉ(Y)是資料組成的函式為我們估計的引數.
那麼估計引數的偏差為:
b θ ( θ ˉ ) = E [ θ ˉ ( Y ) ] − θ b_\theta(\bar\theta)=E[\bar\theta(Y)]-\theta bθ(θˉ)=E[θˉ(Y)]θ
如果 b θ ( θ ˉ ) b_\theta(\bar\theta) bθ(θˉ)=0那麼這個引數估計為無偏差(unbiased)估計
舉個例子:
Y = ( Y 1 , Y 2 , . . . , Y n ) , Y i Y=(Y_1,Y_2,...,Y_n), Y_i Y=(Y1,Y2,...,Yn),Yi為i.i.d獨立同分布,服從均值為 μ \mu μ的正態分佈.
E [ Y ˉ ] = E [ Y 1 + Y 2 + . . . . + Y n n ] = E [ Y 1 ] n + E [ Y 2 ] n + E [ Y 3 ] n + . . . + E [ Y n ] n = μ E[\bar Y]=E[\frac{Y_1+Y_2+....+Y_n}{n}]=\frac{E[Y_1]}{n}+\frac{E[Y_2]}{n}+\frac{E[Y_3]}{n}+...+\frac{E[Y_n]}{n}=\mu E[Yˉ]=E[nY1+Y2+....+Yn]=nE[Y1]+nE[Y2]+nE[Y3]+...+nE[Yn]=μ
那麼根據偏差公式 b θ ( θ ˉ ) = E [ θ ˉ ( Y ) ] − θ = μ − μ = 0 b_\theta(\bar\theta)=E[\bar\theta(Y)]-\theta=\mu-\mu=0 bθ(θˉ)=E[θˉ(Y)]θ=μμ=0
我們會發現原來樣本均值是無偏差估計,也就是說利用最小二乘法和似然估計的均值都是無偏差的。

估計的方差(variance of estimator)
關於 θ ˉ ( Y ) \bar\theta(Y) θˉ(Y)的方差:
V a r θ ( θ ˉ ) = E [ ( θ ˉ ( Y ) − E [ θ ˉ ( Y ) ] ) 2 ] = V [ θ ˉ ( Y ) ] Var_\theta(\bar\theta)=E[(\bar\theta(Y)-E[\bar\theta(Y)])^2]=V[\bar\theta(Y)] Varθ(θˉ)=E[(θˉ(Y)E[θˉ(Y)])2]=V[θˉ(Y)]
從這個公式可以看出,估計量的方差等於 θ ˉ \bar\theta θˉ的樣本分佈的方差
該方差越大意味著每次取出樣本進行估計的變化就越大.
舉個例子:
Y = ( Y 1 , Y 2 , . . . , Y n ) , Y i Y=(Y_1,Y_2,...,Y_n), Y_i Y=(Y1,Y2,...,Yn),Yi為i.i.d獨立同分布,服從均值為 μ \mu μ,方差為 σ 2 \sigma^2 σ2的正態分佈.
我們來計算下樣本均值 Y ˉ \bar Y Yˉ的方差:
V [ Y ˉ ] = V [ Y 1 n + Y 2 n + . . . + Y n n ] = 1 n 2 ( V [ Y 1 ] + V [ Y 2 ] + . . . + V [ Y n ] ) = σ 2 n V[\bar Y]=V[\frac{Y_1}{n}+\frac{Y_2}{n}+...+\frac{Y_n}{n}]=\frac{1}{n^2}(V[Y_1]+V[Y_2]+...+V[Y_n])=\frac{\sigma^2}{n} V[Yˉ]=V[nY1+nY2+...+nYn]=n21(V[Y1]+V[Y2]+...+V[Yn])=nσ2
我們可以看出, σ 2 n \frac{\sigma^2}{n} nσ2就是我們最早計算的樣本分佈的方差即, θ ˉ = Y ˉ ~ N ( μ , σ 2 n ) \bar \theta=\bar Y~N(\mu,\frac{\sigma^2}{n}) θˉ=YˉN(μ,nσ2),並且隨著n增大,樣本數增大,那麼樣本均值的估計會趨於穩定,變化較小.

估計的均方誤差(mean squared error,簡寫MSE)
我們一般比較不同的估計利用均方誤差來比較,均方誤差的值越大.
M S E θ ( θ ˉ ) = E [ ( θ ˉ ( Y ) − θ ) 2 ] = ( E [ θ ˉ ( Y ) ] − θ ) 2 + E [ ( θ ˉ ( Y ) − E [ θ ˉ ( Y ) ] ) 2 ] = b θ ( θ ˉ ) 2 + V a r θ ( θ ˉ ) MSE_\theta(\bar\theta)=E[(\bar\theta(Y)-\theta)^2]=(E[\bar\theta(Y)]-\theta)^2+E[(\bar\theta(Y)-E[\bar\theta(Y)])^2]=b_\theta(\bar\theta)^2+Var_\theta(\bar\theta) MSEθ(θˉ)=E[(θˉ(Y)θ)2]=(E[θˉ(Y)]θ)2+E[(θˉ(Y)E[θˉ(Y)])2]=bθ(θˉ)2+Varθ(θˉ)
這裡有個說法的問題,比較不同的估計利用上述公式叫均方誤差(MSE),我們也可以叫這個公式是平方誤差(squared error).在高等資料分析裡,這就是損失方程(loss function)或者風險方程(risk function)關於估計引數和真參的損失方程.
有的同學會說"我明白這公式幹什麼,不就是真參和估計引數的差值的期望也就是取均值嘛,無可厚非,但為什麼非得用平方差的形式,我們用絕對值不香麼." 沒錯,期望就是均值,就像小弟在最上面給樣本分佈圖一樣,只不過在該圖 θ ˉ ( Y ) \bar\theta(Y) θˉ(Y)是樣本均值,把x軸變為 ( θ ˉ ( Y ) − θ ) 2 (\bar\theta(Y)-\theta)^2 (θˉ(Y)θ)2然後在這個分佈下,取均值也就是期望.也就是多次取樣本,分別計算平方誤差,最後取均值罷了。但為什麼,數學家們由衷的喜歡用平方差呢,絕對值不行麼?
我們這次寫成損失方程的形式 L ( θ , θ ˉ ) L(\theta,\bar\theta) L(θ,θˉ),根據泰勒函式展開:
L ( θ , θ ˉ ) = L ( θ , θ ˉ ) + ( θ − θ ˉ ) L ′ ( θ , θ ˉ ) + ( θ − θ ˉ ) 2 2 L ′ ′ ( θ , θ ˉ ) L(\theta,\bar\theta)=L(\theta,\bar\theta)+(\theta-\bar\theta)L'(\theta,\bar\theta)+\frac{(\theta-\bar\theta)^2}{2}L''(\theta,\bar\theta) L(θ,θˉ)=L(θ,θˉ)+(θθˉ)L(θ,θˉ)+2(θθˉ)2L(θ,θˉ)
θ ≈ θ ˉ \theta≈\bar\theta θθˉ時, L ′ ( θ , θ ˉ ) L'(\theta,\bar\theta) L(θ,θˉ)≈0,那麼 L ( θ , θ ˉ ) ≈ ( θ − θ ˉ ) 2 2 L ′ ′ ( θ , θ ˉ ) L(\theta,\bar\theta)≈\frac{(\theta-\bar\theta)^2}{2}L''(\theta,\bar\theta) L(θ,θˉ)2(θθˉ)2L(θ,θˉ)
我們會發現,原來只要是損失函式多多少少長得很像平方差,因為有一項 ( θ − θ ˉ ) 2 (\theta-\bar\theta)^2 (θθˉ)2.

言歸正傳,估計的均方誤差 M S E θ ( θ ˉ ) = b θ ( θ ˉ ) 2 + V a r θ ( θ ˉ ) MSE_\theta(\bar\theta)=b_\theta(\bar\theta)^2+Var_\theta(\bar\theta) MSEθ(θˉ)=bθ(θˉ)2+Varθ(θˉ)
我們依舊拿樣本均值來試試這個公式
那麼 S E μ , σ 2 ( Y ˉ ) = b μ 2 ( Y ˉ ) + V a r μ . σ 2 ( Y ˉ ) = 0 + σ 2 n = σ 2 n SE_{\mu,\sigma^2}(\bar Y)=b_{\mu}^2(\bar Y)+Var_{\mu.\sigma^2}(\bar Y)=0+\frac{\sigma^2}{n}=\frac{\sigma^2}{n} SEμ,σ2(Yˉ)=bμ2(Yˉ)+Varμ.σ2(Yˉ)=0+nσ2=nσ2
根據結果,我們得出這三點:
1.根據MSE,樣本均值 μ ˉ \bar \mu μˉ為總體均值 μ \mu μ
2. MSE會隨著 σ 2 \sigma^2 σ2的增加而增加
3. MSE會隨著n的減少而減少.

現在我們來試試,比較兩個關於正態分佈方差的估計
σ ˉ M L 2 = 1 n ∑ i = 1 n ( y i − y ˉ ) 2 \bar\sigma^2_{ML}=\frac{1}{n}\sum_{i=1}^{n}(y_i-\bar y)^2 σˉML2=n1i=1n(yiyˉ)2 這是利用似然估計的方差也就是樣本方差

σ ˉ u 2 = 1 n − 1 ∑ i = 1 n ( y i − y ˉ ) 2 \bar \sigma^2_u=\frac{1}{n-1}\sum_{i=1}^{n}(y_i-\bar y)^2 σˉu2=n11i=1n(yiyˉ)2這是另外一個估計關於方差的.
y ˉ = 1 n ∑ i = 1 n y i \bar y=\frac{1}{n}\sum_{i=1}^{n}y_i yˉ=n1i=1nyi是樣本均值,樣本均值無偏差,即樣本均值為總體均值 μ \mu μ

來一個個算,從偏差開始:
根據偏差公式 b θ ( θ ˉ ) = E [ θ ˉ ( Y ) ] − θ b_\theta(\bar\theta)=E[\bar\theta(Y)]-\theta bθ(θˉ)=E[θˉ(Y)]θ
計算 σ ˉ M L 2 \bar\sigma^2_{ML} σˉML2的偏差
b σ 2 ( σ ˉ M L 2 ) = E [ σ ˉ M L 2 ] − σ 2 = E [ 1 n ∑ i = 1 n ( y i − y ˉ ) 2 ] − σ 2 = 1 n E [ ∑ i = 1 n ( y i − y ˉ ) 2 ] − σ 2 = 1 n V [ ∑ i = 1 n ( y i − y ˉ ) ] + 1 n E [ ( y i − y ˉ ) ] 2 − σ 2 = 1 n V [ ∑ i = 1 n ( y i − y ˉ ) ] + 0 − σ 2 = 1 n V [ ∑ i = 1 n y i ] − 1 n ( n V [ y ˉ ] ) − σ 2 = ( σ 2 − 1 n σ 2 ) − σ 2 = − 1 n σ 2 b_{\sigma^{2}}(\bar\sigma^2_{ML})=E[\bar\sigma^2_{ML}]-\sigma^2=E[\frac{1}{n}\sum_{i=1}^{n}(y_i-\bar y)^2]-\sigma^2=\frac{1}{n}E[\sum_{i=1}^{n}(y_i-\bar y)^2]-\sigma^2=\frac{1}{n}V[\sum_{i=1}^{n}(y_i-\bar y)]+\frac{1}{n}E[(y_i-\bar y)]^2-\sigma^2=\frac{1}{n}V[\sum_{i=1}^{n}(y_i-\bar y)]+0-\sigma^2=\frac{1}{n}V[\sum_{i=1}^{n}y_i]-\frac{1}{n}(nV[\bar y])-\sigma^2=(\sigma^2-\frac{1}{n}\sigma^2)-\sigma^2=-\frac{1}{n}\sigma^2 bσ2(σˉML2)=E[σˉML2]σ2=E[n1i=1n(yiyˉ)2]σ2=n1E[i=1n(yiyˉ)2]σ2=n1V[i=1n(yiyˉ)]+n1E[(yiyˉ)]2σ2=n1V[i=1n(yiyˉ)]+0σ2=n1V[i=1nyi]n1(nV[yˉ])σ2=(σ2n1σ2)σ2=n1σ2, 這裡的推導用到了 V [ X ] = E [ X 2 ] − E [ X ] 2 V[X]=E[X^2]-E[X]^2 V[X]=E[X2]E[X]2和我們之前講到的 μ ˉ = Y ˉ ~ N ( μ , σ 2 n ) \bar\mu=\bar Y~N(\mu,\frac{\sigma^2}{n}) μˉ=YˉN(μ,nσ2)

計算 σ ˉ u 2 \bar\sigma^2_u σˉu2的偏差
σ ˉ u 2 = 1 n − 1 ∑ i = 1 n ( y i − y ˉ ) 2 = n n − 1 σ ˉ M L 2 \bar\sigma^2_u=\frac{1}{n-1}\sum_{i=1}^{n}(y_i-\bar y)^2=\frac{n}{n-1}\bar\sigma^2_{ML} σˉu2=n11i=1n(yiyˉ)2=n1nσˉML2
那麼
b σ 2 ( σ ˉ u 2 ) = E [ σ ˉ u 2 ] − σ 2 = n n − 1 E [ σ ˉ M L 2 ] − σ 2 = σ 2 − σ 2 = 0 b_{\sigma^{2}}(\bar\sigma^2_{u})=E[\bar\sigma^2_{u}]-\sigma^2=\frac{n}{n-1}E[\bar\sigma^2_{ML}]-\sigma^2=\sigma^2-\sigma^2=0 bσ2(σˉu2)=E[σˉu2]σ2=n1nE[σˉML2]σ2=σ2σ2=0這個估計竟然是無偏估計,沒錯 σ ˉ u 2 \bar\sigma^2_u σˉu2這就是總體方差估計(population variance estimator).這其實也是 σ ˉ u 2 \bar\sigma^2_u σˉu2總體方差估計的推導過程。上述方法利用無偏性來推出總體方差的估計。但是在上學期間,小弟的老師主要用另外一個角度來介紹總體方差的由來的。該方法涉及了卡方分佈和自由度。小弟我在此帶大家重溫一下這兩個概念。
1.自由度(degrees of freedom),自由度df=n-k,其中n為樣本數量,k為被限制的條件數或變數個數,自由度常用在抽樣分佈中.
2.卡方分佈(chi-square),卡方分佈是由k個獨立標準正態隨機變數的和所構成的分佈,如果 X 1 , X 2 , . . . X k X_1,X_2,...X_k X1,X2,...Xk是獨立的標準正態隨機變數,那麼這k個變數的平方和就是k個自由度的卡方分佈
Q = ∑ i = 1 k X i 2 , Q ~ χ 2 ( k ) Q=\sum_{i=1}^{k}X^2_i, Q~\chi^2(k) Q=i=1kXi2,Qχ2(k)這引數k就是自由度
證明總體方差:
∑ i = 1 n ( y i − y ˉ ) 2 = ∑ i = 1 n ( y i − μ ) 2 − n ( y ˉ − μ ) 2 \sum_{i=1}^{n}(y_i-\bar y)^2=\sum_{i=1}^{n}(y_i-\mu)^2-n(\bar y-\mu)^2 i=1n(yiyˉ)2=i=1n(yiμ)2n(yˉμ)2
等式兩邊同除 σ 2 \sigma^2 σ2
得:
∑ i = 1 n ( y i − y ˉ ) 2 σ 2 = ∑ i = 1 n ( y i − μ ) 2 σ 2 − n ( y ˉ − μ ) 2 σ 2 \frac{\sum_{i=1}^{n}(y_i-\bar y)^2}{\sigma^2}=\frac{\sum_{i=1}^{n}(y_i-\mu)^2}{\sigma^2}-\frac{n(\bar y-\mu)^2}{\sigma^2} σ2i=1n(yiyˉ)2=σ2i=1n(yiμ)2σ2n(yˉμ)2
整理下該公式得:
∑ i = 1 n ( y i − μ ) 2 σ 2 = ∑ i = 1 n ( y i − y ˉ ) 2 σ 2 + n ( y ˉ − μ ) 2 σ 2 \frac{\sum_{i=1}^{n}(y_i-\mu)^2}{\sigma^2}=\frac{\sum_{i=1}^{n}(y_i-\bar y)^2}{\sigma^2}+\frac{n(\bar y-\mu)^2}{\sigma^2} σ2i=1n(yiμ)2=σ2i=1n(yiyˉ)2+σ2n(yˉμ)2
( ∑ i = 1 n ( y i − μ ) σ ) 2 = ( ∑ i = 1 n ( y i − y ˉ ) σ ) 2 + ( n ( y ˉ − μ ) σ ) 2 (\frac{\sum_{i=1}^{n}(y_i-\mu)}{\sigma})^2=(\frac{\sum_{i=1}^{n}(y_i-\bar y)}{\sigma})^2+(\frac{\sqrt{n}(\bar y-\mu)}{\sigma})^2 (σi=1n(yiμ))2=(σi=1n(yiyˉ))2+(σn (yˉμ))2,根據k方分佈,我們知道等式左邊 ( ∑ i = 1 n ( y i − μ ) σ ) 2 (\frac{\sum_{i=1}^{n}(y_i-\mu)}{\sigma})^2 (σi=1n(yiμ))2有n個自由度即有n個標準正態隨機變數,等式右邊的 ( n ( y ˉ − μ ) σ ) 2 (\frac{\sqrt{n}(\bar y-\mu)}{\sigma})^2 (σn (yˉμ))2有1個自由度即1個標準正態隨機變數,那麼等式右邊的 ( ∑ i = 1 n ( y i − y ˉ ) σ ) 2 (\frac{\sum_{i=1}^{n}(y_i-\bar y)}{\sigma})^2 (σi=1n(yiyˉ))2有n-1個自由度即n-1個標準正態隨機變數,那麼 ( ∑ i = 1 n ( y i − y ˉ ) σ ) 2 = n − 1 (\frac{\sum_{i=1}^{n}(y_i-\bar y)}{\sigma})^2=n-1 (σi=1n(yiyˉ))2=n1,整理該公式變為 σ 2 = 1 n − 1 ∑ i = 1 n ( y i − y ˉ ) 2 \sigma^2=\frac{1}{n-1}\sum_{i=1}^{n}(y_i-\bar y)^2 σ2=n11i=1n(yiyˉ)2得到總體方差。

小弟希望那些初學統計的同學能儘可能的知道所有細節,所以寫的比較多,甚至把兩年多以前的筆記都找了回來,小弟畢竟不是數學專業,也希望大家可以糾察出小弟在理論上的謬誤從而互相學習,小弟在此不勝感激。

言歸正傳,為了算這兩個估計量的MSE,所以我們需要計算這兩個估計的方差。但很不幸的是我們無法計算這兩個估計的方差的具體值,因為我們無法解決 E [ y i 2 ] E[y^2_i] E[yi2],即使我們知道 E [ y i ] = μ = ∫ y p ( y ) d y E[y_i]=\mu=\int yp(y)dy E[yi]=μ=yp(y)dy但我們無法解出 E [ y i 2 ] = ∫ y 2 p ( y ) d y 2 E[y^2_i]=\int y^2p(y)dy^2 E[yi2]=y2p(y)dy2.換句話說,如果是離散變數,即使我們知道 E [ y ] = μ = ∑ y p ( y ) E[y]=\mu=\sum yp(y) E[y]=μ=yp(y),但我們無法算出 E [ y 2 ] = ∑ y 2 p ( y ) E[y^2]=\sum y^2p(y) E[y2]=y2p(y).如果把所有對應的概率具體值都給出來,我們還是可以算的,但畢竟小弟我在講原理,假設的條件不會很多,但如果碰到具體實驗或者專案,那已知條件肯定會充沛很多,大家利用公式計算MSE再對比對應估計量的MSE即可.

迴歸正題,雖然不能計算具體的估計量的方差,但我們卻知道這兩個估計的方差誰大誰小.
V a r σ 2 ( σ ˉ u 2 ) = ( n n − 1 ) 2 V a r σ 2 [ σ ˉ M L 2 ] Var_{\sigma^{2}}(\bar\sigma^2_{u})=(\frac{n}{n-1})^2Var_{\sigma^{2}}[\bar\sigma^2_{ML}] Varσ2(σˉu2)=(n1n)2Varσ2[σˉML2]
可以看出 V a r σ 2 [ σ ˉ M L 2 ] Var_{\sigma^{2}}[\bar\sigma^2_{ML}] Varσ2[σˉML2]更小.

也就是說 σ ˉ u 2 \bar\sigma^2_{u} σˉu2這個估計雖然無偏,但有較大的方差.雖然 σ ˉ M L 2 \bar\sigma^2_{ML} σˉML2有偏差但有較小的方差.這說明了 σ ˉ M L 2 \bar\sigma^2_{ML} σˉML2犧牲了無偏差從而換來了方差較小的結果。
因為 M S E θ ( θ ˉ ) = b θ ( θ ˉ ) 2 + V a r θ ( θ ˉ ) MSE_\theta(\bar\theta)=b_\theta(\bar\theta)^2+Var_\theta(\bar\theta) MSEθ(θˉ)=bθ(θˉ)2+Varθ(θˉ),偏差和方差由如魚肉和熊掌不可兼得,你如果注重無偏差,那麼方差相比必然會大,你如果注重小方差,那偏差相比必然會大. 在現實問題中,這就是一個度的問題了,假如你有兩個估計量算出的MSE值相同,這時候你需要考慮MSE裡對應成分的問題了,如果你的偏差很小,方差很大,那麼導致了你只能預測你手上的資料,對於未知資料的預測你不會有很大信心,因為你方差很大,預測不穩定,這就是過飽和估計(overestimate)。如果你偏差很大,方差很小。相反的話就是非飽和估計(underestimate)。另外 M S E θ ( θ ˉ ) MSE_\theta(\bar\theta) MSEθ(θˉ)會隨著n(樣本數)的增大趨近於0,因為 b θ ( θ ˉ ) b_\theta(\bar\theta) bθ(θˉ) V a r θ ( θ ˉ ) Var_\theta(\bar\theta) Varθ(θˉ)均服從 O ( 1 n ) O(\frac{1}{n}) O(n1). 但因為在MSE中, b θ ( θ ˉ ) 2 b_\theta(\bar\theta)^2 bθ(θˉ)2服從 O ( 1 n 2 ) O(\frac{1}{n^2}) O(n21),也就是說,隨著n的增大, b θ ( θ ˉ ) 2 b_\theta(\bar\theta)^2 bθ(θˉ)2會比 V a r θ ( θ ˉ ) Var_\theta(\bar\theta) Varθ(θˉ)先趨近到0.
看到這裡,各位同學是不是會有個想法,我們是不是可以有個估計方法可以犧牲無偏性,從而減小方差,因為當我們樣本數量很多時我們更注重方差,而不是偏差,因為偏差會先趨近到0,況且我們的模型一般是預測未知資料,相應的減少方差是必要的。如果你能想到這一點,恭喜你,如果你早出生幾年,你必然是統計學裡的大才,因為你和當年的吉洪諾夫同學,拉索同學想的一樣,這就是嶺迴歸,拉索迴歸想要做的事情,嶺迴歸就是在最小二乘法這種無偏差估計的基礎上加上懲罰措施從而犧牲最小二乘法的無偏性,進而減小方差的一種估計引數方法.而拉索同學想的更細些,因為我們畢竟不知道模型需要有哪些引數,所以拉索迴歸還能精確的估計出引數為0的真參。

最後MSE還是有缺點的,因為MSE依靠對應引數的選擇。舉個例子
σ ˉ u 2 \bar\sigma^2_{u} σˉu2是總體方差,無偏估計,但是 E σ ˉ u 2 − σ ≠ 0 E\sqrt{\bar\sigma^2_{u}}-\sigma≠0 Eσˉu2 σ=0
σ ˉ u 2 \bar\sigma^2_{u} σˉu2的總體標準差是有偏差的

三. 結語

自習的同學可以參考Ross, S.M. (2014) Introduction to Probability and Statistics for Engineers and Scientists, 5th ed. Academic Press. 第6章(6.1,6.2,6.4,6.5)-7章(7.1,7.2,7.7)

相關文章