虛擬變數與雙重差分
虛擬變數的模型設定
首先我們先對解釋變數中的定性因素和定量因素作以下闡述:
- 定量因素:可直接測度、數值性的因素;
- 定性因素:屬性因素,表徵某種屬性存在與否的非數值性的因素。
在實際建模中,如何對定性因素進行迴歸分析?採用“虛擬變數”對定性變數進行量化是最常用的一種思路。其基本思想為:
- 直接在迴歸模型中加入定性因素存在諸多的困難;
- 可將這些定性因素進行量化,以達到定性因素能與定量因素有著相同作用之目的;
- 有些定量因素也可以採取分組的方式來研究。
虛擬變數設定的時候需要考慮以下的基本規則:
- 總原則為:設定能夠區分所有屬性的最少虛擬變數。
- 虛擬變數取“1”或“0”的原則,應從分析問題的目的出發予以界定。從理論上講,虛擬變數取“0”值通常代表比較的基礎型別;而虛擬變數取“1”值通常代表被比較的型別。
- 如果定性因素具有 \(m\) 個相互排斥屬性,當模型中含有截距項時,則只能引入 \(m-1\) 個虛擬變數;當模型中沒有截距項時,則可以引入 \(m\) 個虛擬變數,否則就會陷入“虛擬變數陷阱”。
- “虛擬變數陷阱”的實質:完全共線性。
虛擬變數的迴歸分析
在計量經濟學中,通常引入虛擬變數的方式分為加法方式和乘法方式兩種。
- 加法方式:
- 乘法方式:
實質上,加法方式引入虛擬變數改變的是截距,乘法方式引入虛擬變數改變的是斜率。
含有虛擬變數的模型的分析手段:條件期望。
以加法方式引入虛擬變數時,主要考慮的問題是定性因素的屬性和引入虛擬變數的個數。主要有四種情況:
- 解釋變數只有一個定性變數而無定量變數,而且定性變數為兩種相互排斥的屬性;
- 解釋變數分別為一個兩種屬性的定性變數和一個定量變數;
- 解釋變數分別為一個定性變數(兩種以上屬性)和一個定量解釋變數;
- 解釋變數分別為兩個定性變數(各自分別是兩種屬性)和一個定量解釋變數。
以乘法方式引入虛擬變數時,是在所設立的模型中,將虛擬變數與其它解釋變數的乘積,作為新的解釋變數出現在模型中,以達到其調整設定模型斜率係數的目的。
- 截距不變的情形:\(Y_i=f(X_i,\,D_iX_i)+u_i\) ;
- 截距和斜率均發生變化的情形:\(Y_i=f(X_i,\,D_i,\,D_iX_i)+u_i\) 。
虛擬變數的綜合應用
所謂虛擬變數的綜合應用是指將引入虛擬解釋變數的加法方式、乘法方式進行綜合使用。基本分析方式仍然是條件期望分析。
結構變化分析
結構變化的實質是檢驗所設定的模型在樣本期內是否為同一模型。顯然,平行迴歸、共點回歸、不同的迴歸三個模型均不是同一模型。
- 平行迴歸模型的假定是斜率保持不變(加法型別,包括方差分析);
- 共點回歸模型的假定是截距保持不變(乘法型別,又被稱為協方差分析);
- 不同的迴歸的模型的假定是截距、斜率均為變動的(加法、乘法型別的組合)。
例:比較改革開放前後我國居民平均“儲蓄—收入”總量關係是否發生變化?
模型設定為 :
\[Y_t=\alpha_1+\alpha_2D_t+\beta_1X_t+\beta_2(D_tX_t)+u_t \]其中:\(Y_t\) 為儲蓄總額,\(X_t\) 為收入總額。
\[D=\left\{\begin{array}{cl} 1 \ \ , & \text{改革開放前} \\ 0 \ \ , & \text{改革開放後} \end{array}\right. \ . \]條件期望分析:
- 改革開放後:\({\rm E}(Y_t|X_t,\,D_t=1)=\alpha_1+\alpha_2+(\beta_1+\beta_2)X_t\) ;
- 改革開放前:\({\rm E}(Y_t|X_t,\,D_t=0)=\alpha_1+\beta_1X_t\) 。
只要 \(\alpha_2\) 和 \(\beta_2\) 不同時為零,上述模型就能刻畫改革開放前後我國居民平均“儲蓄—收入”模型結構是否發生變化。
互動效應分析
互動作用:一個解釋變數的邊際效應有時可能要依賴於另一個解釋變數。
例:研究人群的個人收入 \(Y\) 與其教育水平 \(E\) 和所在地區 \(D\) 的關係。
模型設定為:
\[Y=\alpha_0+\alpha_1D_1+\alpha_2D_2+\alpha_3E+\alpha_4D_1E+\alpha_5D_2E+u \ , \]其中
\[D_1=\left\{\begin{array}{cl} 1 \ \ , & \text{中部} \\ 0 \ \ , & \text{其他} \end{array}\right. \ , \ \ \ \ D_2=\left\{\begin{array}{cl} 1 \ \ , & \text{東部} \\ 0 \ \ , & \text{其他} \end{array}\right. \ , \ \ \ \ E=\left\{\begin{array}{cl} 1 \ \ , & \text{高等} \\ 0 \ \ , & \text{中等} \end{array}\right. \ . \]各類人員的收入表如下:
西部 \((0,\,0)\) 中部 \((1,\,0)\) 東部 \((0,\,1)\) 中等 \(E=0\) \(\alpha_0\) \(\alpha_0+\alpha_1\) \(\alpha_0+\alpha_2\) 高等 \(E=1\) \(\alpha_0+\alpha_3\) \(\alpha_0+\alpha_1+\alpha_3+\alpha_4\) \(\alpha_0+\alpha_2+\alpha_3+\alpha_5\) 差異性描述:
中部與西部差 東部與西部差 東部與中部差 中等 \(E=0\) \(\alpha_1\) \(\alpha_2\) \(\alpha_2-\alpha_1\) 高等 \(E=1\) \(\alpha_1+\alpha_4\) \(\alpha_2+\alpha_5\) \(\alpha_2-\alpha_1+\alpha_5-\alpha_4\) 各類人員的收入表如下:
西部 \((0,\,0)\) 中部 \((1,\,0)\) 東部 \((0,\,1)\) 高等與中等差 \(\alpha_3\) \(\alpha_3+\alpha_4\) \(\alpha_3+\alpha_5\)
雙重差分模型
雙重差分法,Differences-in-Differences,基本思想就是通過對政策實施前後對照組和實驗組之間差異的比較構造出反映政策效果的雙重差分統計量。首先強調一點,一般而言 DID 僅適用於皮膚資料模型,但並沒有嚴格意義上皮膚資料模型所需要的過多的假設,通過引入虛擬變數並通過最小二乘法即可實現引數估計。因此我們在討論皮膚資料之前,先討論雙重差分模型的應用。
前提假設:
- 平行趨勢假設:如果實驗組的事件沒有發生,對照組和實驗組的變化趨勢相同。
- 檢驗方法:比較實驗組和對照組樣本的 \(Y\) 隨 \(t\) 的增長率在實驗前有無顯著差異。
模型設定:
其中,\(Y_{it}\) 為個體 \(i\) 在 \(t\) 期的結果值,
對 DID 模型取數學期望:
對照組+實驗前
對照組+實驗後
實驗組+實驗前
對照組+實驗前
為了方便對比引數設定的意義,我們用如下的表格:
對照組 | 實驗組 | |
---|---|---|
實驗前 | \(\alpha\) | \(\alpha+\alpha_1\) |
實驗後 | \(\alpha+\alpha_2\) | \(\alpha+\alpha_1+\alpha_2+\beta\) |
Difference | \(\alpha_2\) | \(\alpha_2+\beta\) |
將雙重差分的思想與上表的內容結合,我們可以得到政策的淨效應:
關鍵:檢驗交叉項係數 \(\hat\beta\) 是否顯著。
雙重差分模型的優點
- 可以很大程度上避免內生性問題的困擾:政策相對於微觀經濟主體而言一般是外生的,因而不存在逆向因果問題。此外,使用固定效應估計一定程度上也緩解了遺漏變數偏誤問題。
- 傳統方法下評估政策效應,主要是通過設定一個政策發生與否的虛擬變數然後進行迴歸,相較而言,雙重差分法的模型設定更加科學,能更加準確地估計出政策效應。
- 雙重差分法的原理和模型設定很簡單,容易理解和運用,並不像空間計量等方法一樣讓人望而生畏。
- 儘管雙重差分法估計的本質就是皮膚資料固定效應估計,但是 DID 聽上去或多或少也要比 OLS、FE 之流更加“時尚高階”,因而 DID 的使用一定程度上可以滿足“虛榮心”。