第8章 自相關
8.1 自相關的後果
除了異方差,違反球形擾動項的另一情形是擾動項存在自相關。
定義 自相關(autocorrelation) / 序列相關(serial correlation)
對於\(\{\epsilon_1,\cdots,\epsilon_n\}\),如果存在\(i \ne j\),使得\(E(\epsilon_i\epsilon_j|X)\ne 0\),即協方差矩陣\(Var(\epsilon|X)\)的非主對角線不全為0,則存在自相關或序列相關。
存在自相關的情況下:
- OLS估計量依然是無偏的、一致的、漸近正態的。
- OLS估計量方差\(Var(\hat\beta|X)\)的表示式不再是\(\sigma^2(X’X)^{-1}\),即\(Var(\epsilon|X) \ne \sigma^2I\)
- 普通標準誤的t檢驗、F檢驗失效。
- 高斯馬爾可夫定理不再成立,OLS不再是BLUE。
8.2 自相關的例子
例子:
- 時間序列自相關。
- 經濟活動通常具有某種連續性或永續性,在時間序列中比較常見。
- 橫截面資料中的自相關。
- 相鄰單位存在溢位效應,空間自相關。
- 對資料的人為處理。
- MA、內插值、季節調整
- 設定誤差。
- 遺漏了某個自相關的解釋變數。
8.3 自相關的檢驗
1.畫圖
- 將殘差\(e_t\)與殘差滯後項 \(e_{t-1}\) 畫成散點圖
- 計算殘差的各階樣本相關係數 \(\hat\rho_k\),是滯後階數 \(k\) 的函式,將 \((k,\hat\rho_k)\) 畫圖。
2.BG檢驗
(Breusch,1978;Godfrey,1979)
- 考慮多元線性模型: \(y_i=\beta_1+\beta_2x_{i2}+\cdots+\beta_Kx_{iK}+\epsilon_t\)
- 假設擾動項 \(\epsilon_t\) 存在一階(高階)自相關:\(\epsilon_t = \gamma_1\epsilon_{t-1} +\cdots+\gamma_p\epsilon_{t-p}+ \mu_t \quad (t = p+1,\cdots,n)\)
- 由於 \(\epsilon_t\) 不可觀測,用 \(e_t\) 替代
- 如果遺漏 \(x_{t}\),可能導致擾動項與 \(e_t\) 相關,使得估計不一致。
- 所以輔助迴歸為: \(e_t=\gamma_1e_{t-1} +\cdots+\gamma_pe_{t-p}+ \delta_2x_{t2} +\cdots+\delta_kx_{tk}+ v_t\)
- 原假設(無自相關性)為:\(H_0:\gamma_1=\cdots=\gamma_p=0\)
- 拉格朗日統計量:$$LM=(n-p)R^2 \xrightarrow{d} \chi^2(p)$$
(Davidson-MacKinnon,1993):直接把殘差中因滯後而缺失的項用期望值0代替。
3.Q檢驗
另一種思路是檢驗各階自相關係數均為0。
- 原假設:\(H_0:\rho_1=\cdots=\rho_p=0\)
- 大樣本下,如果原假設成立,\(\hat\rho_j\) 依機率收斂於0,\(\sqrt n \hat\rho_j\) 服從漸近正態分佈。
- BP-Q統計量:平方和(對 \(j\) 求和)漸近卡方分佈$$Q_{BP} \equiv n\sum_{j=1}p\hat\rho_j2 \xrightarrow{d} \chi^2(p)$$
(Box&Pierce,1970)
- 小樣本下,經過改進的Ljung-Box Q統計量性質更好,大樣本等價與BPQ。
- LB-Q統計量:調整了自由度$$Q_{LB}\equiv n(n+2)\sum_{j=1}p\frac{\hat\rho_j2}{n-j} \xrightarrow{d} \chi^2(p)$$
Ljung&Box,1979
4.DW檢驗
DW檢驗是較早出現的檢驗,現已不常用。
- 只能檢驗一階自相關
- 統計量依賴於資料矩陣X
那就不看了。
8.4 自相關的處理
經過檢驗發現存在自相關時,有如下四種處理方法。
1.使用“OLS+異方差自相關穩健的標準誤” ——NW法
因在存在自相關的情況下,OLS估計量依然無偏且一致,故仍可使用OLS進行迴歸估計。為了正確進行統計推斷,須使用異方差自相關穩健的標準誤,這種方法稱為Newey-West估計法
- HAC:Heteroskedasticity and Autocorrelation Consistent Standard Error
- 只改變標準誤的估計值,不改變回歸係數的估計值
- 一般取\(p=n^{1/4}\) 或 \(p=0.75n^{1/3}\) ,比p更高階的自相關係數將被截斷不考慮,p就是截斷引數。
Newwy和West,1987
2.準差分法
準差分法(quasi difference) / Cochrane-Orcutt估計法
思路:變換原模型使轉換後的擾動項變成球形擾動項。
- 假設原模型:\(y_t=\beta_1+\beta_2x_{t2}+\cdots+\beta_Kx_{tK}+\epsilon_t \quad (t=1,\cdots,n)\)
- 其中 \(\epsilon_t\) 存在自相關,且一階自相關:\(\epsilon_t=\rho\epsilon_{t-1}+\mu_t\)
- 自迴歸係數\(|\rho|<1\)
- \(\mu_t\)為白噪聲
- 其中 \(\epsilon_t\) 存在自相關,且一階自相關:\(\epsilon_t=\rho\epsilon_{t-1}+\mu_t\)
- 將原模型滯後一期,兩邊同乘 \(\rho\) :\(\rho y_{t-1}=\rho(\beta_1+\beta_2x_{t-1,2}+\cdots+\beta_Kx_{t-1,K}+\epsilon_{t-1})\)
- 方程組(n-1個) 的擾動項為球形擾動項,可消除異方差,且消除了自相關。$$y_t-\rho y_{t-1}=(1-\rho)\beta_1+\beta_2(x_{t2}-\rho x_{t-1,2})+\cdots+\beta_K(x_{tK}-\rho x_{t-1,K})+(\underbrace{\epsilon_t-\rho\epsilon_{t-1}}_{\mu_t})\quad {(8.14)}$$
但問題是:損失了一個樣本容量,不是最有效率的BLUE。
Cochrane和Orcutt,1949
Prais-Winsten估計法 / PW
思路:不損失樣本的話,就需要補一個\(y_1\)的方程,且同方差、無自相關
- 因:\((1 -\rho^2)\sigma_{\epsilon}^2 = \sigma_{\mu}^2\)
- 故:\(\sqrt{1-\rho^2}y_1\)是同方差的,為球形擾動項。將如下方程加入(8.14)就可得到BLUE。$$\sqrt{1-\rho2}y_1=\sqrt{1-\rho2}\beta_1+\sqrt{1-\rho2}x_{12}+\cdots+\sqrt{1-\rho2}x_{1K}+\sqrt{1-\rho^2}\epsilon_1$$
Paris和Winsten,1954,簡稱PW
無論CO估計法還是PW估計法均不可行(infeasible),在實踐中必須用資料估計一階自迴歸係數\(\hat\beta\):
- OLS殘差進行輔助迴歸:\(e_t=\hat\rho e_{t-1}+error_t\)
- 殘差的一階自相關係數:$$\hat\rho=\frac{\sum_{t=2}ne_te_{t-1}}{\sum_{t-1}n e_t^2}$$
- DW統計量進行估計:\(\hat\rho=1-\frac{DW}{2}\)
常使用迭代法進行估計,具體步驟:
- 首先,用OLS估計原模型,用殘差 {e} 作輔助迴歸,得到 \(\hat\rho^{(1)}\),再用 \(\hat\rho^{(1)}\)進行CO或PW估計
- 然後,用CO或PW得到的新殘差估計 \(\hat\rho^{(2)}\),再用 \(\hat\rho^{(2)}\) 進行CO或PW估計
- 依次類推,直至收斂(即相鄰兩輪的\(\rho\)與係數估計值之差足夠小)。
3.廣義最小二乘法
如果同時存在異方差和自相關,應該使用廣義最小二乘法(Generalized Least Square,GLS)
思路:透過變數轉換,使得轉換後的模型滿足球形擾動項。
- 協方差矩陣 \(Var(\epsilon |X)=\sigma^2V(X)\) ,首先找到非退化矩陣 C,使得 \(V^{-1}=C'C\)
- 將原模型 \(y=X\beta+\epsilon\) 兩邊同時左乘C,得到\(Cy=CX\beta+C\epsilon\)
- 記上面的方程為:\(\tilde y=\tilde X\beta+\tilde \epsilon\)
- 可證明:\(Var(\tilde \epsilon|\tilde X)=\sigma^2 I_n\)
- 使用OLS即可得到GLS估計量,與C無關,雖然C不唯一,但是\(\hat \beta_{GLS}\) 唯一:
- 此估計量是BLUE,且比OLS有效率。
定義 可行廣義最小二乘法
- 前提條件是要知道協方差矩陣V,而V通常未知,GLS是不可行的。
- 在實踐中,必須透過資料估計\(\hat V\),再進行GLS,稱為(FGLS)。
命題 對於對稱正定矩陣\(V_{n\times n}\),存在非退化矩陣\(C_{n\times n}\),使得\(V^{-1}=C'C\)
4.修改模型設定
有些情況,自相關深層原因可能就是模型設定錯了。因此,最好從改進模型設定著手,而不是機械的使用FGLS。
8.5 處理自相關的python命令及例項
1.時間序列運算元
![[pandas_docs#16. 時間序列相關的例項方法:]]
2.畫殘差圖
sm.graphics.tsa.plot_acf(y, ax=plt.gca(),zero=False,lags=15)
plt.show()
![[8-5-1殘差自相關圖.png]]
3.BG檢驗
from statsmodels.stats.diagnostic import acorr_breusch_godfrey
bg_result = acorr_breusch_godfrey(results, nlags=1)
4.Q檢驗
from statsmodels.stats.diagnostic import acorr_ljungbox
bp_result = acorr_ljungbox(results.resid,
lags=[i for i in range(1, 14)],
boxpierce=True,
return_df=True,
# auto_lag=True
)
5.DW檢驗
# from statsmodel.stats impotr durbin_watson
sm.stats.durbin_watson(results.resid)
6.HAC穩健標準誤
![[statsmodel_docs#處理方法:HAC穩健標準誤]]
7.處理一階自相關的FGLS
此部分內容很複雜,程式碼後續補充