計量經濟學複習筆記(二):一元線性迴歸(下)
計量經濟學複習筆記(二):一元線性迴歸(下)
回顧上文,我們通過OLS推匯出了一元線性迴歸的兩個引數估計,得到了以下重要結論:
β
^
1
=
∑
x
i
y
i
∑
x
i
2
,
β
^
0
=
Y
ˉ
−
β
^
1
X
ˉ
.
\hat\beta_1=\frac{\sum x_iy_i}{\sum x_i^2},\quad \hat\beta_0=\bar Y-\hat\beta_1\bar X.
β^1=∑xi2∑xiyi,β^0=Yˉ−β^1Xˉ.
注意總體迴歸模型是
Y
=
β
0
+
β
1
X
+
μ
Y=\beta_0+\beta_1X+\mu
Y=β0+β1X+μ,同時我們還假定了
μ
∼
N
(
0
,
σ
2
)
\mu\sim N(0,\sigma^2)
μ∼N(0,σ2),這使得整個模型都具有正態性。這種正態性意味著許多,我們能用數理統計的知識得到點估計的優良性質,完成區間估計、假設檢驗等,本文就來詳細討論上述內容。
1、BLUE
我們選擇OLS估計量作為一元線性迴歸的引數估計量,最主要的原因就是它是最小方差線性無偏估計(Best Linear Unbiased Estimator),這意味著它們是:
- 線性的。
- 無偏的。
- 最小方差的。
不過,光給你這三個詞,你可能會對定義有所困擾——比如,關於什麼線性?又關於什麼是無偏的?我們接下來就對OLS估計量的BLUE性詳細討論,包括簡單證明。原本我認為,證明在後面再給出會更合適,引入也更順暢,但是我們接下來要討論的許多,都有賴於OLS估計量的BLUE性,因此我還是決定將這部分內容放在這裡。
首先是線性性,它指的是關於觀測值
Y
i
Y_i
Yi線性,這有什麼意義呢?注意到,在之前的討論中,我們總討論在給定
X
X
X的取值狀況下的其他資訊,如
μ
\mu
μ的條件期望、方差協方差等,因此我們往往會在這部分的討論中將
X
X
X視為常數(而不是隨機變數)看待,這會帶來一些好處。而因為
μ
∼
N
(
0
,
σ
2
)
\mu\sim N(0,\sigma^2)
μ∼N(0,σ2)且
μ
i
\mu_i
μi是從
μ
\mu
μ中抽取的簡單隨機樣本,且
μ
i
\mu_i
μi與
X
i
X_i
Xi無關,所以由正態分佈的性質,有
Y
i
∣
X
i
∼
N
(
β
0
+
β
1
X
i
,
σ
2
)
.
Y_i|X_i\sim N(\beta_0+\beta_1X_i,\sigma^2).
Yi∣Xi∼N(β0+β1Xi,σ2).
實際上,由於引數真值
β
1
,
β
1
\beta_1,\beta_1
β1,β1是常數,所以每一個
Y
i
Y_i
Yi在給定了
X
i
X_i
Xi的水平下,都獨立地由
μ
i
\mu_i
μi完全決定,而
μ
i
\mu_i
μi序列不相關(在正態分佈的情況下獨立),所以
Y
i
Y_i
Yi之間也相互獨立。這樣,如果有一個統計量是
Y
i
Y_i
Yi的線性組合,那麼由正態分佈的可加性,這個統計量就自然服從正態分佈,從而我們可以很方便地對其進行引數估計、假設檢驗等。
所以現在我們來驗證
β
^
0
,
β
^
1
\hat\beta_0,\hat\beta_1
β^0,β^1是
Y
i
Y_i
Yi的線性組合,先從比較容易處理的
β
^
1
\hat\beta_1
β^1開始,我們已經算出了
β
^
1
=
∑
x
i
y
i
∑
x
i
2
,
\hat\beta_1=\frac{\sum x_iy_i}{\sum x_i^2},
β^1=∑xi2∑xiyi,
為了在這個式子中出現
Y
i
Y_i
Yi,只要把
y
i
y_i
yi開啟就行了,也就是
β
^
1
=
∑
x
i
(
Y
i
−
Y
ˉ
)
∑
x
i
2
=
∑
x
i
Y
i
−
Y
ˉ
∑
x
i
∑
x
i
2
.
\hat\beta_1=\frac{\sum x_i(Y_i-\bar Y)}{\sum x_i^2}=\frac{\sum x_i Y_i-\bar Y\sum x_i}{\sum x_i^2}.
β^1=∑xi2∑xi(Yi−Yˉ)=∑xi2∑xiYi−Yˉ∑xi.
注意到
∑
x
i
=
∑
(
X
i
−
X
ˉ
)
=
0
\sum x_i=\sum(X_i-\bar X)=0
∑xi=∑(Xi−Xˉ)=0,所以有
β
^
1
=
∑
i
=
1
n
x
i
∑
x
i
2
Y
i
=
d
e
f
∑
i
=
1
n
k
i
Y
i
,
k
i
=
x
i
∑
x
i
2
.
\hat\beta_1=\sum_{i=1}^n\frac{x_i}{\sum x_i^2}Y_i\xlongequal{def}\sum_{i=1}^nk_iY_i,\quad k_i=\frac{x_i}{\sum x_i^2}.
β^1=i=1∑n∑xi2xiYidefi=1∑nkiYi,ki=∑xi2xi.
這就將
β
^
1
\hat\beta_1
β^1表示成了
Y
i
Y_i
Yi的線性組合。同理對於
β
^
0
\hat\beta_0
β^0,由於
β
^
0
=
Y
ˉ
−
X
ˉ
β
^
1
=
∑
i
=
1
n
Y
i
n
−
X
ˉ
∑
i
=
1
n
k
i
Y
i
=
∑
i
=
1
n
(
1
n
−
X
ˉ
k
i
)
Y
i
=
d
e
f
∑
i
=
1
n
w
i
Y
i
.
\hat\beta_0=\bar Y-\bar X\hat \beta_1=\sum_{i=1}^n\frac{Y_i}n-\bar X\sum_{i=1}^nk_iY_i=\sum_{i=1}^n\left(\frac1n-\bar Xk_i \right)Y_i\xlongequal{def}\sum_{i=1}^nw_iY_i.
β^0=Yˉ−Xˉβ^1=i=1∑nnYi−Xˉi=1∑nkiYi=i=1∑n(n1−Xˉki)Yidefi=1∑nwiYi.
所以
β
^
0
\hat\beta_0
β^0也是
Y
i
Y_i
Yi的線性組合。進一步地由於
Y
i
Y_i
Yi獨立地服從正態分佈,所以
β
^
1
,
β
^
0
\hat\beta_1,\hat\beta_0
β^1,β^0也服從正態分佈。
無偏性指的是
β
^
0
,
β
^
1
\hat\beta_0,\hat\beta_1
β^0,β^1是
β
0
,
β
1
\beta_0,\beta_1
β0,β1的無偏估計——理解概念,
β
0
\beta_0
β0與
β
1
\beta_1
β1是總體迴歸函式中的引數,在給定問題的情形下是一個待估引數,因此也是常數。我們已經驗證了
β
^
0
,
β
^
1
\hat\beta_0,\hat\beta_1
β^0,β^1都是獨立正態分佈
Y
i
Y_i
Yi的線性組合,因此它們的均值就很好求得,基於
Y
i
∣
X
i
∼
N
(
β
0
+
β
1
X
i
,
σ
2
)
Y_i|X_i\sim N(\beta_0+\beta_1X_i,\sigma^2)
Yi∣Xi∼N(β0+β1Xi,σ2)的事實,有
E
(
β
^
1
)
=
∑
i
=
1
n
x
i
E
(
Y
i
)
∑
x
i
2
=
∑
i
=
1
n
x
i
(
β
0
+
β
1
X
i
)
∑
x
i
2
=
β
0
∑
x
i
∑
x
i
2
+
β
1
∑
x
i
X
i
∑
x
i
2
,
E
(
β
^
0
)
=
∑
i
=
1
n
(
1
n
−
X
ˉ
x
i
∑
x
i
2
)
(
β
0
+
β
1
X
i
)
=
β
0
+
β
1
X
ˉ
−
β
1
X
ˉ
∑
x
i
X
i
∑
x
i
2
,
\mathbb E(\hat\beta_1)=\sum_{i=1}^n\frac{x_i\mathbb E(Y_i)}{\sum x_i^2}=\sum_{i=1}^n\frac{x_i(\beta_0+\beta_1X_i)}{\sum x_i^2}=\frac{\beta_0\sum x_i}{\sum x_i^2}+\frac{\beta_1\sum x_iX_i}{\sum x_i^2},\\ \mathbb E(\hat\beta_0)=\sum_{i=1}^n\left(\frac1n-\frac{\bar Xx_i}{\sum x_i^2} \right)(\beta_0+\beta_1X_i)=\beta_0+\beta_1\bar X-\beta_1\bar X\frac{\sum x_iX_i}{\sum x_i^2},
E(β^1)=i=1∑n∑xi2xiE(Yi)=i=1∑n∑xi2xi(β0+β1Xi)=∑xi2β0∑xi+∑xi2β1∑xiXi,E(β^0)=i=1∑n(n1−∑xi2Xˉxi)(β0+β1Xi)=β0+β1Xˉ−β1Xˉ∑xi2∑xiXi,
由於
∑
x
i
X
i
=
∑
x
i
(
x
i
+
X
ˉ
)
=
∑
x
i
2
+
X
ˉ
∑
x
i
=
∑
x
i
2
\sum x_iX_i=\sum x_i(x_i+\bar X)=\sum x_i^2+\bar X\sum x_i=\sum x_i^2
∑xiXi=∑xi(xi+Xˉ)=∑xi2+Xˉ∑xi=∑xi2且
∑
x
i
=
0
\sum x_i=0
∑xi=0,所以
E
(
β
^
1
)
=
β
1
,
E
(
β
^
0
)
=
β
0
.
\mathbb E(\hat\beta_1)=\beta_1,\quad \mathbb E(\hat\beta_0)=\beta_0.
E(β^1)=β1,E(β^0)=β0.
這裡,我們得到了引數估計量
β
^
1
,
β
^
0
\hat\beta_1,\hat\beta_0
β^1,β^0的均值,說明了它們是無偏估計。
最後最小方差性,指的是在所有線性無偏估計中,引數估計量
β
^
1
,
β
^
0
\hat\beta_1,\hat\beta_0
β^1,β^0是方差最小的(注意線性無偏估計的限定條件)。為證明
β
^
1
\hat\beta_1
β^1是最小方差的,我們可以另外構造一個線性無偏估計量,記作
β
^
1
∗
=
∑
i
=
1
n
(
k
i
+
d
i
)
Y
i
=
β
^
1
+
∑
i
=
1
n
d
i
Y
i
,
\hat\beta_1^*=\sum_{i=1}^n(k_i+d_i)Y_i=\hat\beta_1+\sum_{i=1}^nd_iY_i,
β^1∗=i=1∑n(ki+di)Yi=β^1+i=1∑ndiYi,
無偏性要求使得
E
(
∑
i
=
1
n
d
i
Y
i
)
=
∑
i
=
1
n
d
i
(
β
0
+
β
1
X
i
)
=
0
,
\mathbb E\left(\sum_{i=1}^n d_iY_i\right)=\sum_{i=1}^nd_i(\beta_0+\beta_1X_i)=0,
E(i=1∑ndiYi)=i=1∑ndi(β0+β1Xi)=0,
由
β
0
,
β
1
\beta_0,\beta_1
β0,β1的未知性,我們必須保證
∑
d
i
=
∑
d
i
X
i
=
0
\sum d_i=\sum d_iX_i=0
∑di=∑diXi=0,也就是
∑
d
i
(
X
i
−
X
ˉ
)
=
∑
d
i
x
i
=
0
\sum d_i(X_i-\bar X)=\sum d_ix_i=0
∑di(Xi−Xˉ)=∑dixi=0。所以
D
(
β
^
1
∗
)
=
D
(
β
^
1
+
∑
i
=
1
n
d
i
Y
i
)
=
D
(
β
^
1
)
+
D
(
∑
i
=
1
n
d
i
Y
i
)
+
2
C
o
v
(
∑
i
=
1
n
k
i
Y
i
,
∑
i
=
1
n
d
i
Y
i
)
=
D
(
β
^
1
)
+
D
(
∑
i
=
1
n
d
i
Y
i
)
+
2
σ
2
∑
i
=
1
n
k
i
d
i
=
D
(
β
^
1
)
+
D
(
∑
i
=
1
n
d
i
Y
i
)
+
2
σ
2
∑
x
i
d
i
∑
x
i
2
=
D
(
β
^
1
)
+
D
(
∑
i
=
1
n
d
i
Y
i
)
+
0
≥
D
(
β
^
1
)
.
\begin{aligned} \mathbb D(\hat\beta_1^*)=&\mathbb D\left(\hat\beta_1+\sum_{i=1}^nd_iY_i \right)\\ =&\mathbb D(\hat\beta_1)+\mathbb D\left(\sum_{i=1}^nd_iY_i \right)+2{\rm Cov}\left(\sum_{i=1}^nk_iY_i,\sum_{i=1}^nd_iY_i \right)\\ =&\mathbb D(\hat\beta_1)+\mathbb D\left(\sum_{i=1}^nd_iY_i \right)+2\sigma^2\sum_{i=1}^nk_id_i\\ =&\mathbb D(\hat\beta_1)+\mathbb D\left(\sum_{i=1}^nd_iY_i \right)+2\sigma^2\frac{\sum x_id_i}{\sum x_i^2}\\ =&\mathbb D(\hat\beta_1)+\mathbb D\left(\sum_{i=1}^nd_iY_i \right)+0\\ \ge& \mathbb D(\hat\beta_1). \end{aligned}
D(β^1∗)=====≥D(β^1+i=1∑ndiYi)D(β^1)+D(i=1∑ndiYi)+2Cov(i=1∑nkiYi,i=1∑ndiYi)D(β^1)+D(i=1∑ndiYi)+2σ2i=1∑nkidiD(β^1)+D(i=1∑ndiYi)+2σ2∑xi2∑xidiD(β^1)+D(i=1∑ndiYi)+0D(β^1).
同理,為證明
β
^
0
\hat\beta_0
β^0是最小方差的,同樣構造一個
β
^
0
∗
=
∑
(
w
i
+
d
i
)
Y
i
\hat\beta_0^*=\sum(w_i+d_i)Y_i
β^0∗=∑(wi+di)Yi,無偏性要求也會使得
∑
w
i
d
i
=
0
\sum w_id_i=0
∑widi=0,仿照
β
^
1
\hat\beta_1
β^1的步驟就證明了
D
(
β
^
0
∗
)
≥
D
(
β
^
)
\mathbb D(\hat\beta_0^*)\ge \mathbb D(\hat\beta)
D(β^0∗)≥D(β^)。
由線性性,我們還可以計算出引數估計量的方差,因為我們要用
β
^
1
\hat\beta_1
β^1和
β
^
0
\hat\beta_0
β^0估計真值
β
1
,
β
0
\beta_1,\beta_0
β1,β0,既然它們是無偏的,它們的方差越小,估計結果就越接近我們想要的真值,因此計算它們的方差具有重要意義。
D
(
β
^
1
)
=
σ
2
∑
k
i
2
=
σ
2
∑
x
i
2
(
∑
x
i
2
)
2
=
σ
2
∑
x
i
2
.
D
(
β
^
0
)
=
σ
2
∑
w
i
2
=
σ
2
∑
(
1
n
−
X
ˉ
k
i
)
2
=
σ
2
∑
(
1
n
2
−
2
X
ˉ
k
i
n
+
X
ˉ
2
k
i
2
)
=
σ
2
(
1
n
+
X
ˉ
2
∑
x
i
2
)
=
∑
x
i
2
+
n
X
ˉ
2
n
∑
x
i
2
σ
2
=
∑
X
i
2
n
∑
x
i
2
σ
2
.
\begin{aligned} \mathbb D(\hat\beta_1)=&\sigma^2\sum k_i^2=\sigma^2\sum\frac{x_i^2}{(\sum x_i^2)^2}=\frac{\sigma^2}{\sum x_i^2}.\\ \mathbb D(\hat\beta_0)=&\sigma^2\sum w_i^2\\ =&\sigma^2\sum\left(\frac1n-\bar Xk_i \right)^2\\ =&\sigma^2\sum\left(\frac1{n^2}-\frac{2\bar Xk_i}{n}+\bar X^2k_i^2 \right)\\ =&\sigma^2\left(\frac1n+\frac{\bar X^2}{\sum x_i^2} \right)\\ =&\frac{\sum x_i^2+n\bar X^2}{n\sum x_i^2}\sigma^2\\ =&\frac{\sum X_i^2}{n\sum x_i^2}\sigma^2. \end{aligned}
D(β^1)=D(β^0)======σ2∑ki2=σ2∑(∑xi2)2xi2=∑xi2σ2.σ2∑wi2σ2∑(n1−Xˉki)2σ2∑(n21−n2Xˉki+Xˉ2ki2)σ2(n1+∑xi2Xˉ2)n∑xi2∑xi2+nXˉ2σ2n∑xi2∑Xi2σ2.
它們的方差都隨著分母——自變數的離差平方和的增大而增大,這表明我們的樣本容量越大,估計值就會有越高的精度。
2、引數分佈與區間估計
結合正態性假定,我們已經確定了引數估計量的均值、方差,就得到了其分佈:
β
^
1
∼
N
(
β
1
,
σ
2
∑
x
i
2
)
,
β
^
0
∼
N
(
β
0
,
∑
X
i
2
n
∑
x
i
2
σ
2
)
.
\hat\beta_1\sim N\left(\beta_1,\frac{\sigma^2}{\sum x_i^2} \right),\\ \hat\beta_0\sim N\left(\beta_0,\frac{\sum X_i^2}{n\sum x_i^2}\sigma^2 \right).
β^1∼N(β1,∑xi2σ2),β^0∼N(β0,n∑xi2∑Xi2σ2).
得到了引數分佈以後,我們是不是就可以對引數值給出區間估計了呢?事實上,我們還缺一個關鍵的引數——隨機誤差方差
σ
2
\sigma^2
σ2,由於它是未知的,我們還是沒法得知方差的具體值,也就不能得到引數的真實分佈。因此,我們需要找到一個
σ
2
\sigma^2
σ2的無偏估計。
一個很自然的想法是,用殘差項
e
e
e作為
μ
\mu
μ的估計,進而估計出
μ
\mu
μ的唯一引數
σ
2
\sigma^2
σ2,因此先探究
e
e
e的分佈。由於
e
i
=
Y
i
−
(
β
^
0
+
β
^
1
X
i
)
=
(
β
0
−
β
^
0
)
+
(
β
1
−
β
^
1
)
X
i
+
μ
i
,
e_i=Y_i-(\hat\beta_0+\hat\beta_1X_i)=(\beta_0-\hat\beta_0)+(\beta_1-\hat\beta_1)X_i+\mu_i,
ei=Yi−(β^0+β^1Xi)=(β0−β^0)+(β1−β^1)Xi+μi,
所以看起來
e
i
e_i
ei也是一系列正態分佈的線性組合,但我們是否能得到
e
e
e服從(條件)正態分佈的結論?可以,但並不是直接
β
0
,
β
1
\beta_0,\beta_1
β0,β1的直接加和,因為
β
0
\beta_0
β0和
β
1
\beta_1
β1的獨立性還沒有被驗證,不要忘了,只有獨立正態分佈的線性組合才服從正態分佈。我們依然可以把
e
i
e_i
ei看成獨立正態分佈的線性組合,因為
β
^
0
,
β
^
1
\hat\beta_0,\hat\beta_1
β^0,β^1都是
Y
i
Y_i
Yi的線性組合,進一步是各個
μ
i
\mu_i
μi的線性組合。
事實上,我們還缺少一些關鍵性的條件:
β
^
0
\hat\beta_0
β^0與
β
^
1
\hat\beta_1
β^1的協方差,還有
β
^
0
,
β
^
1
\hat\beta_0,\hat\beta_1
β^0,β^1與
μ
i
\mu_i
μi的協方差。我們可以稍作計算,得到
C
o
v
(
β
^
0
,
β
^
1
)
=
C
o
v
(
∑
i
=
1
n
w
i
Y
i
,
∑
i
=
1
n
k
i
Y
i
)
=
σ
2
∑
w
i
k
i
=
σ
2
∑
(
1
n
−
X
ˉ
k
i
)
k
i
=
−
σ
2
X
ˉ
∑
k
i
2
=
−
σ
2
X
ˉ
∑
x
i
2
.
C
o
v
(
β
^
1
,
μ
i
)
=
k
i
σ
2
=
x
i
σ
2
∑
x
i
2
,
C
o
v
(
β
^
0
,
μ
i
)
=
w
i
σ
2
=
(
1
n
−
X
ˉ
k
i
)
σ
2
=
∑
x
i
2
−
n
X
ˉ
x
i
n
∑
x
i
2
σ
2
.
\begin{aligned} {\rm Cov}(\hat\beta_0,\hat\beta_1)=&{\rm Cov}\left(\sum_{i=1}^nw_iY_i,\sum_{i=1}^nk_iY_i \right)\\ =&\sigma^2\sum w_ik_i\\ =&\sigma^2\sum\left(\frac1n-\bar X k_i \right)k_i\\ =&-\sigma^2\bar X\sum k_i^2\\ =&-\frac{\sigma^2\bar X}{\sum x_i^2}.\\ {\rm Cov}(\hat\beta_1,\mu_i) =&k_i\sigma^2=\frac{x_i\sigma^2}{\sum x_i^2},\\ {\rm Cov}(\hat\beta_0,\mu_i) =&w_i\sigma^2=\left(\frac1n-\bar Xk_i \right)\sigma^2=\frac{\sum x_i^2-n\bar Xx_i}{n\sum x_i^2}\sigma^2. \end{aligned}
Cov(β^0,β^1)=====Cov(β^1,μi)=Cov(β^0,μi)=Cov(i=1∑nwiYi,i=1∑nkiYi)σ2∑wikiσ2∑(n1−Xˉki)ki−σ2Xˉ∑ki2−∑xi2σ2Xˉ.kiσ2=∑xi2xiσ2,wiσ2=(n1−Xˉki)σ2=n∑xi2∑xi2−nXˉxiσ2.
有了這些,我們已經可以計算
e
i
e_i
ei的分佈,進而用單個
e
i
e_i
ei得到關於
σ
2
\sigma^2
σ2的估計,容易看出,由於均值項都被抵消,最後得到的
e
i
e_i
ei一定是零均值正態的。但只用一個殘差是無法估計
σ
2
\sigma^2
σ2的,數理統計的知識告訴我們,為了充分利用樣本資訊,我們應該使用充分統計量作為估計量。容易知道,
e
=
(
e
1
,
⋯
,
e
n
)
\boldsymbol e=(e_1,\cdots,e_n)
e=(e1,⋯,en)服從多維正態分佈,但各分量之間相互獨立,因此可以用聯合密度匯出充分統計量。忽略推導細節,這裡的充分統計量是
∑
e
i
2
\sum e_i^2
∑ei2,因此我們應該計算
∑
e
i
2
\sum e_i^2
∑ei2的分佈,從而給出
σ
2
\sigma^2
σ2的估計量,事實上,可以證明
∑
e
i
2
σ
2
∼
χ
2
(
n
−
2
)
.
\frac{\sum e_i^2}{\sigma^2}\sim \chi^2(n-2).
σ2∑ei2∼χ2(n−2).
證明過程與證明正態分佈的樣本方差服從卡方分佈類似,對於計量經濟學略顯繁瑣,如果需要,我將在後面補充這個命題的證明。現在我們知道了
∑
e
i
2
\sum e_i^2
∑ei2的分佈,自然可以計算均值為
σ
2
(
n
−
2
)
\sigma^2(n-2)
σ2(n−2),所以我們往往會用如下估計量作為
σ
2
\sigma^2
σ2的無偏估計:
σ
^
2
=
∑
e
i
2
n
−
2
,
(
n
−
2
)
σ
^
2
σ
2
∼
χ
2
(
n
−
2
)
.
\hat\sigma^2=\frac{\sum e_i^2}{n-2},\quad \frac{(n-2)\hat\sigma^2}{\sigma^2}\sim \chi^2(n-2).
σ^2=n−2∑ei2,σ2(n−2)σ^2∼χ2(n−2).
此時再來考慮
β
^
0
,
β
^
1
\hat\beta_0,\hat\beta_1
β^0,β^1的引數估計問題就簡單很多了,因為我們使用卡方統計量來替代方差真值,所以相應的區間估計應當基於
t
t
t分佈構造樞軸量。對於
β
^
1
\hat\beta_1
β^1,有
β
^
1
∼
N
(
β
1
,
σ
2
∑
x
i
2
)
β
^
1
−
β
1
σ
^
2
∑
x
i
2
=
β
^
1
−
β
1
σ
2
/
∑
x
i
2
σ
^
2
/
σ
2
≃
U
(
0
,
1
)
χ
n
−
2
2
/
(
n
−
2
)
∼
t
(
n
−
2
)
.
\hat\beta_1\sim N\left(\beta_1,\frac{\sigma^2}{\sum x_i^2} \right)\\ \frac{\hat\beta_1-\beta_1}{\sqrt{\frac{\hat\sigma^2}{\sum x_i^2}}}=\frac{\frac{\hat\beta_1-\beta_1}{\sqrt{\sigma^2/\sum x_i^2}}}{\sqrt{\hat\sigma^2/\sigma^2}}\simeq\frac{U(0,1)}{\sqrt{\chi^2_{n-2}/(n-2)}}\sim t(n-2).
β^1∼N(β1,∑xi2σ2)∑xi2σ^2β^1−β1=σ^2/σ2σ2/∑xi2β^1−β1≃χn−22/(n−2)U(0,1)∼t(n−2).
對於
β
^
0
\hat\beta_0
β^0,類似的證明過程可以得出
β
^
0
−
β
0
∑
x
i
2
−
n
X
ˉ
x
i
n
∑
x
i
2
σ
^
2
∼
t
(
n
−
2
)
.
\frac{\hat\beta_0-\beta_0}{\sqrt{\frac{\sum x_i^2-n\bar Xx_i}{n\sum x_i^2}\hat\sigma^2}}\sim t(n-2).
n∑xi2∑xi2−nXˉxiσ^2β^0−β0∼t(n−2).
實際上,求
β
^
0
,
β
^
1
\hat\beta_0,\hat\beta_1
β^0,β^1的引數估計與方差未知情形的正態分佈均值估計有異曲同工之妙,只不過樣本方差的獲得方式不太一樣。對於迴歸引數,我們只要推匯出
β
^
0
,
β
^
1
\hat\beta_0,\hat\beta_1
β^0,β^1的方差,再用殘差平方和除以自由度
n
−
2
n-2
n−2代替方差裡的
σ
2
\sigma^2
σ2,就能得到樞軸量,剩下的過程與數理統計的情形一致。
3、引數的假設檢驗
在數理統計中,我們已經知道,對引數分佈族的假設檢驗與求引數分佈族的區間估計,在一定程度上是等價的。具體說來,如果我們已經求得引數
λ
\lambda
λ的一個置信水平為
1
−
α
1-\alpha
1−α的區間估計
[
L
,
S
]
[L,S]
[L,S],那麼對如下假設進行顯著性水平為
α
\alpha
α的雙邊檢驗:
test:
H
0
:
λ
=
λ
0
↔
H
1
:
λ
≠
λ
0
,
\text{test: }H_0:\lambda=\lambda_0\leftrightarrow H_1:\lambda\ne\lambda_0,
test: H0:λ=λ0↔H1:λ=λ0,
只需要判斷是否
λ
0
∈
[
L
,
S
]
\lambda_0\in[L,S]
λ0∈[L,S]即可,如果
λ
0
∈
[
L
,
S
]
\lambda_0\in[L,S]
λ0∈[L,S],則接受
H
0
H_0
H0,否則就拒絕
H
0
H_0
H0。如果是單邊假設檢驗,則相應的置信區間就變成同等置信水平的置信限。因此,在我們討論完
β
^
0
,
β
^
1
\hat\beta_0,\hat\beta_1
β^0,β^1的分佈之後,實際上假設檢驗問題也討論完了。
在計量經濟學中,我們對單個引數的假設檢驗,最主要是用於判斷變數是否顯著的,也就是用
X
X
X來預測
Y
Y
Y是否有意義。具體說來,對於迴歸函式
Y
=
β
0
+
β
1
X
+
μ
Y=\beta_0+\beta_1X+\mu
Y=β0+β1X+μ,如果
β
1
=
0
\beta_1=0
β1=0,則我們不需要用
X
X
X來預測
Y
Y
Y,因為不論
X
X
X是什麼取值,都對
Y
Y
Y沒什麼影響。也就是檢驗如下的假設:
H
0
:
β
1
=
0.
H_0:\beta_1=0.
H0:β1=0.
另一種假設檢驗,是檢驗是否
X
,
Y
X,Y
X,Y之間存在完全的比例關係,也就是有沒有
Y
=
β
1
X
+
μ
Y=\beta_1X+\mu
Y=β1X+μ,檢驗的假設是
H
0
:
β
0
=
0.
H_0:\beta_0=0.
H0:β0=0.
如果只是單純想要知道是否應該接受
H
0
H_0
H0,則假設檢驗與區間估計無異,但為了衡量接受原假設的信心有多大,或者拒絕原假設的信心有多大,我們都會計算檢驗的p-value。檢驗的p-value用通俗的語言解釋,就是如果你這個原假設是成立的,那麼出現比你的觀測值更離譜的觀測值的概率是多少,我們用p-value來表示這個概率,如果這個概率很小,就說明你這個觀測值已經很難再離譜了,因此我們沒有什麼接受原假設的理由;如果這個概率很大,就說明你的觀測值不離譜,完全可以接受原假設。
具體應用到迴歸係數的假設檢驗中,由於我們構造的樞軸量滿足
t
t
t分佈,假設樞軸量的觀測值是
t
0
t_0
t0,則由於
t
t
t分佈的對稱性,用
t
α
t_{\alpha}
tα表示
t
t
t分佈的下
α
\alpha
α分位數(
P
(
t
<
t
α
)
=
α
\mathbb P(t<t_\alpha)=\alpha
P(t<tα)=α),則檢驗的p-value是
p
v
=
2
P
(
t
>
∣
t
0
∣
)
.
p_v=\mathbb 2P(t>|t_0|).
pv=2P(t>∣t0∣).
如果
p
v
p_v
pv很小,我們就應該拒絕
β
i
=
0
\beta_i=0
βi=0的原假設,認為迴歸係數很顯著。
現在我們繼續分析上文的案例。
通過計算,我們得到的迴歸方程為
Y
=
1.3269
X
−
160.5962
,
Y=1.3269X-160.5962,
Y=1.3269X−160.5962,
計算殘差,得到的殘差分別是4.3077、-1.0192、1.6538、-6、-2.3269、-9.6538、14.0192、-0.9808,所以殘差平方和為354.4404,方差的估計值是
σ
^
2
=
354.4404
8
−
2
=
59.0734.
\hat\sigma^2=\frac{354.4404}{8-2}=59.0734.
σ^2=8−2354.4404=59.0734.
現在,我們可以瞭解迴歸結果中的部分剩餘數值。
這裡:
- Residual SS就是殘差平方和(Residual Sum Square),得到的結果與我們計算相差不多,這是因為我們在計算過程中忽略了部分誤差。
- Residual MS則是殘差均方誤差,計算所得的就是隨機誤差方差的估計值。
- x和_cons後面的t指的是根據假設 β 1 = 0 \beta_1=0 β1=0和 β 0 = 0 \beta_0=0 β0=0構造樞軸量的觀測值,後面的P>|t|就是檢驗的p-value,從這裡可以看出p-value都大於0.05,所以在顯著性水平為0.05的情況下不能拒絕等於0的原假設,認為斜率和截距都不存在。
- [95% Conf. Interval]指的是置信水平為95%的置信區間,因為這兩個引數的置信區間都包含0,所以它們得出了與假設檢驗一致的結論。
本文我們對迴歸係數OLS估計量的分佈作了進一步的討論,得到了基礎假設下回歸係數OLS估計量的分佈。同時,通過殘差平方和引出了隨機誤差項方差的估計,進而完成了對引數的區間估計與假設檢驗。現在留給我們的問題,就剩下回歸的效果了,我們應當如何判斷迴歸的效果如何,又應該如何使用我們建立的迴歸模型?
這些問題,留待下文討論。
相關文章
- 計量經濟學複習筆記(1)筆記
- Python學習筆記-StatsModels 統計迴歸(1)線性迴歸Python筆記
- TensorFlow學習筆記(1):線性迴歸筆記
- 深度學習筆記002-線性迴歸深度學習筆記
- 一元線性迴歸模型模型
- 【機器學習筆記】:大話線性迴歸(二)機器學習筆記
- 計量經濟學(三)——Probit和Logit迴歸Git
- 機器學習筆記(1):線性迴歸機器學習筆記
- 機器學習入門學習筆記:(2.1)線性迴歸理論推導機器學習筆記
- 【動手學深度學習】第三章筆記:線性迴歸、SoftMax 迴歸、交叉熵損失深度學習筆記熵
- 有監督學習——線性迴歸
- 基於sklearn的波士頓房價預測_線性迴歸學習筆記筆記
- 【機器學習筆記】:大話線性迴歸(一)機器學習筆記
- 機器學習筆記(2):線性迴歸-使用gluon機器學習筆記
- 從本地讀取兩個陣列,計算一元線性迴歸陣列
- 線性迴歸演算法學習總結演算法
- Python數模筆記-Sklearn(4)線性迴歸Python筆記
- torch神經網路--線性迴歸神經網路
- 機器學習——簡單線性迴歸(下)機器學習
- 線性迴歸
- 線性基學習筆記筆記
- 計量經濟學(十二)——虛擬變數回歸模型變數模型
- 【深度學習 01】線性迴歸+PyTorch實現深度學習PyTorch
- 用scikit-learn和pandas學習線性迴歸
- 用 Scikit-Learn 和 Pandas 學習線性迴歸
- 吳恩達機器學習筆記 —— 3 線性迴歸回顧吳恩達機器學習筆記
- 機器學習(課堂筆記)Day04:線性迴歸法機器學習筆記
- 機器學習程式碼筆記-2-簡單線性迴歸機器學習筆記
- 深度學習入門實戰(二)- 用 TensorFlow 訓練線性迴歸深度學習
- js 線性最小二乘迴歸線方程JS
- 《精通資料科學:從線性迴歸到深度學習》資料科學深度學習
- 機器學習_最小二乘法,線性迴歸與邏輯迴歸機器學習邏輯迴歸
- 【小白學AI】線性迴歸與邏輯迴歸(似然引數估計)AI邏輯迴歸
- 【深度學習基礎-10】簡單線性迴歸(上)深度學習
- 機器學習-線性迴歸機器學習
- 1.3 - 線性迴歸
- 機器學習:線性迴歸機器學習
- 吳恩達機器學習筆記 —— 5 多變數線性迴歸吳恩達機器學習筆記變數