資料分析-皮膚資料變截距模型

kuanleung發表於2020-11-01

原文網址 : https://www.cnblogs.com/kuanleung/p/13908756.html

變截距皮膚資料模型

變截距皮膚資料模型理論介紹

混合效應模型

背景思想

迴歸公式可以忽略個體與時間變化的差異，因此所有的資料特徵可以通過一個公式進行刻畫。進行資料的大雜燴、亂燉。為什麼採取這麼直接粗暴的方式呢？因為每個品種的菜(個體與時間維度)都很少，每一個品種的菜都不能夠做出完整一盤菜，只能將所有的菜雜七雜八的混合起來亂燉。亂燉雖說精度不高，可是總比沒法處理要好很多。

模型假定

1.\(E(\varepsilon_{it})=0\);
2.\(var(\varepsilon)=\sigma_\varepsilon為常數\)；
3. \(\varepsilon_{it}與X_{it}不相關\);

公式：

\(Y_{it}=\alpha + X_{it}' \beta + \varepsilon_{it},i = 1,2,3,...,N;t=1,2,3,...,T\)

專案	含義
\(i\)	個體標誌序數
\(t\)	時間序數
\(X_{it}\)	觀測變數，\(K*1\)向量，\((X_{1it,},X_{2it},..,X_{kit})'\)
\(\beta\)	引數，\(K*1\)向量, \((\beta_{1},\beta_{2},..,\beta_{k})'\)
\(\alpha\)	截距項
\(\varepsilon_{it}\)	隨機擾動項

估計方法展示

資料結構展示：

估計方法：

這個模型是將所有的資料\((y,x_1,x_2,x_3,x_4)\)，直接匯入公式\(Y_{it}=\alpha + X_{it}' \beta + \varepsilon_{it},i = 1,2,3,...,N;t=1,2,3,...,T\)進行迴歸，只能求出一組\((\beta_{1},\beta_{2},..,\beta_{k})'\)，意味著\(\beta\)在不同個體、不同時點上都是同一組，它不會因為時間或個體而發生變動。

固定效應模型

背景思想

當你擁有蔬菜的品種足夠多，你就可以依據他們的味道單獨做一些小炒菜。有一些影響因素A隨著一些條件的改變而改變，但是這個因素A並未通過\(X\)觀測變數納入模型，比如說我們研究消費函式，\(C = \alpha + \beta Y + \varepsilon\), 這裡的\(\alpha\)叫做自發消費，這個自發性消費是可能和個人特徵、所處的社會文化、教育等未觀測變數有關，換句話說，截距項 \(\alpha\) 和個體某些未觀測到的特質有關，而不和\(Y\)有關。\(\alpha\)和\(\varepsilon\)都是代表了不可觀測因素的影響，前者的影響因素是有趨勢的(常數也是一種趨勢)，後者的影響因素是無趨勢的。更簡單的理解就是，\(\alpha\)存在的意義就是為了使\(\varepsilon\)擁有零均值。

當這個截距項與個體特徵相關時，我們稱為個體固定效應模型。
當這個截距項與時間特徵有關時，我們稱為時間固定效應模型。
同理，和A潛在變數有關，我們就可以稱它為A的固定效應模型。
當這個截距項與個體特徵和時間特徵都相關時，我們稱為雙固定效應模型。
同理，也可以同時依據三種或三種以上的變數進行分類，迴歸得出它們影響的截距項的估計值。

個體固定效應模型

模型假設

1.\(E(\varepsilon_{it})=0\);
2.\(var(\varepsilon)=\sigma_\varepsilon為常數\)；
3 \(\varepsilon_{it}與X_{it}不相關\);
4. \(\alpha_i 與X_{it}相關\)
5. \(E(\alpha_i)=0\)

模型公式

\(Y_{it}=\alpha_0 +\alpha_i + X_{it}' \beta + \varepsilon_{it},i = 1,2,3,...,N;t=1,2,3,...,T\)

專案	含義
\(i\)	個體標誌序數
\(t\)	時間序數
\(X_{it}\)	觀測變數，\(K*1\)向量，\((X_{1it,},X_{2it},..,X_{kit})'\)
\(\beta\)	引數，\(K*1\)向量, \((\beta_{1},\beta_{2},..,\beta_{k})'\)
\(\alpha_0\)	常數項
\(\alpha_i\)	個體效應
\(\alpha_0+\alpha_i\)	截距項
\(\varepsilon_{it}\)	隨機擾動項

補充：也寫為
\(Y_{it}=u_i+ X_{it}' \beta + \varepsilon_{it},i = 1,2,3,...,N;t=1,2,3,...,T\)
\(u_i = \alpha_0 +\alpha_i, E(u_i)= \alpha_0,E(\alpha_i)=0\)

估計方法展示

資料結構如下：

1.組內（within）估計（離差估計）
離差估計就是剔除常數項，然後進行估計，首先明白我們的目標：分別計算\(a,b,c,d,e\)組內的截距和各自的組內\(\beta\) .其實，不需要離差就可以迴歸。將a,b,c,d,e組的資料分別帶入\(Y_{it}=\alpha_0 +\alpha_i + X_{it}' \beta + \varepsilon_{it},i = 1,2,3,...,N;t=1,2,3,...,T\)，就可以得到結果。

離差方差推導
原方程：
\(Y_{it}=\alpha_0 +\alpha_i + X_{it}' \beta + \varepsilon_{it},i = 1,2,3,...,N;t=1,2,3,...,T\)
求均值方程：
\(\bar Y_{i}=\alpha_0 +\alpha_i + \bar X_{i}' \beta + \bar \varepsilon_{i},i = 1,2,3,...,N;t=1,2,3,...,T\)
離差變換（原方程減均值方程）：
\(Y_{it}-\bar Y_{i}=\alpha_0 +\alpha_i -(\alpha_0 +\alpha_i)+ X_{it}' \beta - \bar X_{i}' \beta+ \varepsilon_{it}-\bar \varepsilon_{i}= X_{it}' \beta - \bar X_{i}' \beta+ \varepsilon_{it}-\bar \varepsilon_{i},i = 1,2,3,...,N;t=1,2,3,...,T\)
\(\bar Y_i= \frac{1}{T}\displaystyle\sum_{t=1}^T(Y_{it})\)
\(\bar X_i= \frac{1}{T}\displaystyle\sum_{t=1}^T(X_{it})\)
帶入離差資料求解,文字描述
通過\((y,x_1,x_2,x_3,x_4)\)計算組內時間上的均值\(\bar{(y,x_1,x_2,x_3,x_4)}\)，然後計算離差\((y,x_1,x_2,x_3,x_4)- \bar{(y,x_1,x_2,x_3,x_4)}\),帶入離差方程\(Y_{it}-\bar Y_{i}= X_{it}' \beta - \bar X_{i}' \beta+ \varepsilon_{it}-\bar \varepsilon_{i},i = 1,2,3,...,N;t=1,2,3,...,T\)進行估計。
利用估計出的\(\beta\)帶入均值方程\(\bar Y_{i}=\alpha_0 +\alpha_i + \bar X_{i}' \beta + \bar \varepsilon_{i},i = 1,2,3,...,N;t=1,2,3,...,T\)，求解組內的(\(\alpha_0 +\alpha_i\))
通過上一步\(N\)個組的(\(\alpha_0 +\alpha_i\))，求解\(\alpha_0 = \frac{1}{N}\displaystyle\sum_{t=1}^N(\alpha_0 +\alpha_i)\),依據假設5：\(E(\alpha_i)=0\)
再求解\(\alpha_i = (\alpha_0 +\alpha_i) - \alpha_0\)

2.一階差分估計
原理： 因為\(\alpha_0 +\alpha_i\)是不受時間影響的，所以我們可以使用差分方法消去常數項

差分方程推導
原方程：
\(Y_{it}=\alpha_0 +\alpha_i + X_{it}' \beta + \varepsilon_{it},i = 1,2,3,...,N;t=1,2,3,...,T\)
上一期方程：
\(Y_{i,t-1}=\alpha_0 +\alpha_i + X_{i,t-1}' \beta + \varepsilon_{i,t-1},i = 1,2,3,...,N;t=1,2,3,...,T\)
原方程減上一期方程：
\(Y_{it}-Y_{i,t-1}=\alpha_0 +\alpha_i + X_{it}' \beta + \varepsilon_{it}-\alpha_0 - \alpha_i - X_{i,t-1}' \beta - \varepsilon_{i.t-1} = X_{it}' \beta -X_{i,t-1}' \beta + \varepsilon_{it}- \varepsilon_{i,t-1}\)
資料代入求解即可。
此方法無法求解截距項。

3.LSDV(最小二乘虛擬變數法)
學過計量的小夥伴們應該熟悉虛擬變數法，將個體差異以截距項形式的虛擬變數加入。
估計方程形式：
\(Y = D \alpha+X\beta + \varepsilon\)
\(D=\begin{pmatrix} D_1 & D_2&D_3&...&D_N \end{pmatrix}\)
其中：
\(D_N=\begin{cases} 1 &\text{if } 為N組 \\ 0 &\text{if } 不為N組 \end{cases}\)

時點固定效應模型

模型假設

1.\(E(\varepsilon_{it})=0\);
2.\(var(\varepsilon)=\sigma_\varepsilon為常數\)
3 \(\varepsilon_{it}與X_{it}不相關\);
4. \(\lambda_i 與X_{it}相關\)；

模型公式

\(Y_{it}=\lambda_0 +\lambda_i + X_{it}' \beta + \varepsilon_{it},i = 1,2,3,...,N;t=1,2,3,...,T\)

專案	含義
\(i\)	個體標誌序數
\(t\)	時間序數
\(X_{it}\)	觀測變數，\(K*1\)向量，\((X_{1it,},X_{2it},..,X_{kit})'\)
\(\beta\)	引數，\(K*1\)向量, \((\beta_{1},\beta_{2},..,\beta_{k})'\)
\(\lambda_0\)	常數項
\(\lambda_i\)	時間效應
\(\lambda_0+\lambda_i\)	截距項
\(\varepsilon_{it}\)	隨機擾動項

估計方法展示

資料結構如下：

LSDV(最小二乘虛擬變數法)
學過計量的小夥伴們應該熟悉虛擬變數法，將時間段以截距項形式的虛擬變數加入。
估計方程形式：
\(Y = D\lambda+X\beta + \varepsilon\)
\(D=\begin{pmatrix} D_1 & D_2&D_3&...&D_T \end{pmatrix}\)
其中：
\(D_T=\begin{cases} 1 &\text{if } 為T時期 \\ 0 &\text{if } 不為T時期 \end{cases}\)

個體時點固定效應模型

模型假設

1 \(E(\varepsilon_{it})=0\);
2 \(var(\varepsilon)=\sigma_\varepsilon為常數\)
3 \(\varepsilon_{it}與X_{it}不相關\);
4 \(\lambda_i 與X_{it}相關\)；
5 \(\alpha_i 與X_{it}相關\)；
6 \(E(\alpha_i)=0\)；
7 \(E(\lambda_i)=0\)；

這裡我們設定：
\(\tilde{\alpha}_i=\alpha_0+\alpha_i;\tilde{\lambda}_i=\lambda_0+\lambda_i\);
8 \(E(\tilde{\alpha}_i)=\alpha_0\);
9 \(E(\tilde{\lambda}_i)=\lambda_0\);

模型公式

\(Y_{it}=(\alpha_0 +\lambda_0)+\alpha_i +\lambda_i + X_{it}' \beta + \varepsilon_{it}\)
\(=\alpha_0 +\alpha_i + \lambda_0 +\lambda_i + X_{it}' \beta + \varepsilon_{it}\)
\(=\tilde{\alpha}_i+\tilde{\lambda}_i+X_{it}' \beta + \varepsilon_{it},i = 1,2,3,...,N;t=1,2,3,...,T\)

專案	含義
\(i\)	個體標誌序數
\(t\)	時間序數
\(X_{it}\)	觀測變數，\(K*1\)向量，\((X_{1it,},X_{2it},..,X_{kit})'\)
\(\beta\)	引數，\(K*1\)向量, \((\beta_{1},\beta_{2},..,\beta_{k})'\)
\(\lambda_0\)	時間效應的常數項
\(\lambda_i\)	時間效應
\(\alpha_0\)	個體特徵的常數項
\(\alpha_i\)	個體效應
\(\alpha_0+\alpha_i+\lambda_0+\lambda_i\)	截距項
\(\varepsilon_{it}\)	隨機擾動項

估計方法

資料結構展示：

LSDV(最小二乘虛擬變數法)
學過計量的小夥伴們應該熟悉虛擬變數法，將時間段以截距項形式的虛擬變數加入。

估計方程形式：
\(Y = D_{\lambda}\lambda + D_\alpha\alpha+X\beta + \varepsilon\)
\(D_{\lambda}=\begin{pmatrix} D_1 & D_2&D_3&...&D_T \end{pmatrix}\)
其中：
\(D_T=\begin{cases} 1 &\text{if } 為T時期 \\ 0 &\text{if } 不為T時期 \end{cases}\)
\(D_\alpha=\begin{pmatrix} D_1 & D_2&D_3&...&D_N \end{pmatrix}\)
其中：
\(D_N=\begin{cases} 1 &\text{if } 為N組 \\ 0 &\text{if } 不為N組 \end{cases}\)
也可以將時間與個體效應混合
\(Y = Dh + X\beta + \varepsilon\)
\(D=\begin{pmatrix} D_1 & D_2&D_3&...&D_{N*T} \end{pmatrix}\)
其中：
\(D=\begin{cases} 1 &\text{if } 為第N個體的T時期 \\ 0 &\text{if } 不為第N個體的T時期 \end{cases}\)

個體時點雙固定效應，控制區域、行業等模型

模型假設

這裡我們設定：
\(\tilde{\alpha}_i=\alpha_0+\alpha_i;\tilde{\lambda}_i=\lambda_0+\lambda_i\);
8 \(E(\tilde{\alpha}_i)=\alpha_0\);
9 \(E(\tilde{\lambda}_i)=\lambda_0\);

模型公式

\(Y_{it}=\tilde{\alpha}_i+\tilde{\lambda}_i+D_{type}\gamma+X_{it}' \beta + \varepsilon_{it}, i = 1,2,3,...,N;t=1,2,3,...,T\)

這個方程為了方便理解而設定，其中\(\tilde{\alpha}_i與D_{type}\)存在共線性問題，畢竟型別屬性也是個體特徵的一部分嘛！

專案	含義
\(i\)	個體標誌序數
\(t\)	時間序數
\(X_{it}\)	觀測變數，\(K*1\)向量，\((X_{1it,},X_{2it},..,X_{kit})'\)
\(\beta\)	引數，\(K*1\)向量, \((\beta_{1},\beta_{2},..,\beta_{k})'\)
\(\lambda_0\)	時間效應的常數項
\(\lambda_i\)	時間效應
\(\alpha_0\)	個體特徵的常數項
\(\alpha_i\)	個體效應
\(\alpha_0+\alpha_i+\lambda_0+\lambda_i\)	截距項
\(\varepsilon_{it}\)	隨機擾動項
\(D_{type}\)	型別的虛擬變數

估計方法展示

資料展示

估計方法：同上，將型別變數按照虛擬變數加入方程即可。

隨機效應模型

背景思想：每組估計值的截距項的變動不與X的特徵有關。

個體隨機效應

模型假設

1.\(E(\varepsilon_{it})=0\);
2.\(var(\sigma_\varepsilon)為常數\)；
3 \(\varepsilon_{it}與X_{it}不相關\);
4. \(\alpha_i 與X_{it},\varepsilon_{it}不相關\);
5. \(\alpha_i \thicksim i.i.d(0,\sigma_\alpha^2)\);

公式：

\(Y_{it}=\alpha_0 +\alpha_i + X_{it}' \beta + \varepsilon_{it},i = 1,2,3,...,N;t=1,2,3,...,T\)
\(=\alpha_0 + X_{it}' \beta +(\alpha_i+ \varepsilon_{it}),i = 1,2,3,...,N;t=1,2,3,...,T\)
\(=\alpha_0 + X_{it}' \beta + v_{it}, v_{it}=\alpha_i + \varepsilon_{it}, i = 1,2,3,...,N;t=1,2,3,...,T\)

專案	含義
\(i\)	個體標誌序數
\(t\)	時間序數
\(X_{it}\)	觀測變數，\(K*1\)向量，\((X_{1it,},X_{2it},..,X_{kit})'\)
\(\beta\)	引數，\(K*1\)向量, \((\beta_{1},\beta_{2},..,\beta_{k})'\)
\(\alpha_0\)	常數項
\(\alpha_i\)	隨機效應
\(\alpha_0+\alpha_i\)	截距項
\(\varepsilon_{it}\)	隨機擾動項
\(v_{it}=\alpha_i + \varepsilon_{it}\)	新的隨機擾動項

根據\(v_{it}=\alpha_i + \varepsilon_{it}\)；\(\alpha_i \thicksim i.i.d(0,\sigma_\alpha^2)\);\(\alpha_i 與X_{it},\varepsilon_{it}不相關\);\(var(\varepsilon)=\sigma_\varepsilon為常數\)
推導：
\(cov(v_{it},v_{is})=cov(\alpha_i + \varepsilon_{it},\alpha_i + \varepsilon_{is})=cov(\alpha_i ,\alpha_i + \varepsilon_{is})+cov(\varepsilon_{it},\alpha_i + \varepsilon_{is})=cov(\alpha_i ,\alpha_i )+cov(\alpha_i ,\varepsilon_{is})+cov(\varepsilon_{it},\alpha_i )+ cov(\varepsilon_{it},\ \varepsilon_{is}) =\begin{cases} \sigma_\alpha^2 &\text{if } t \neq s \\ \sigma_\alpha^2 + \sigma_\varepsilon &\text{if } t=s \end{cases}\)
所以不滿足古典假定，存在異方差與自相關問題。

估計方法展示

可行的廣義最小二乘法(FGLS)

模型設定檢驗

F檢驗（chow's test）

原假設：混合迴歸模型
備擇假設：其他模型

以個體固定效應模型為例：\(Y_{it}=u_i+X_{it}'\beta+ \varepsilon_{it}\)

原假設：\(u_1=u_2=...=u_N\) （存在約束，截距不會變）
\(Y_{it}=u_i+X_{it}'\beta+ \varepsilon_{it}\)
計算迴歸的\(RSS_r\)
備擇假設：\(u_1，u_2，...，u_N不全相等\) （無約束，截距會變）
\(Y_{it}=u_i+X_{it}'\beta+ \varepsilon_{it}\)
計算迴歸的\(RSS_u\)

F統計量構造：
\(F=\cfrac{(RSS_r-RSS_u)/[(NT-k-1)-(NT-k-N)]}{RSS_u/(NT-k-N)} \thicksim F(N-1,NT-k-N)\)

專案	含義
\(RSS_r\)	有約束模型的殘差平方和(混合模型，有約束)
\(RSS_u\)	無約束模型的殘差平方和(變截距模型)
\(k\)	解釋變數個數

LR檢驗

原假設：混合迴歸模型
備擇假設：其他模型

以個體固定效應模型為例：\(Y_{it}=u_i+X_{it}'\beta+ \varepsilon_{it}\)

原假設：\(u_1=u_2=...=u_N\) （存在約束，截距不會變）
\(Y_{it}=u_i+X_{it}'\beta+ \varepsilon_{it}\)
計算迴歸的最大似然函式值的對數\(ln(L_r)\)
備擇假設：\(u_1，u_2，...，u_N不全相等\) （無約束，截距會變）
\(Y_{it}=u_i+X_{it}'\beta+ \varepsilon_{it}\)
計算迴歸的最大似然函式值的對數\(ln(L_u)\)

LR統計量構造：
\(LR=-2(lnL_r-lnL_u)漸近服從\chi^2(約束條件的個數: N-1)\)

豪斯曼檢驗（Hauseman's test）

原假設：個體隨機效應模型(個體效應與迴歸變數無關)
備擇假設：個體固定效應模型(個體效應與迴歸變數有關)

檢驗的原理：
利用組內估計(within)，無論是隨機效應模型的引數估計值還是固定效應模型的引數估計值，估計引數值都是一致的
利用廣義最小二乘法，對隨機效應模型的引數估計值是一致的，對於隨機效應模型的引數估計值是不一致的

真實模型	組內估計\(\hat\beta_w\)	廣義最小二乘法\(\tilde{\beta_{re}}\)
\(隨機效應模型\)	一致估計量	非一致估計量
\(固定效應模型\)	一致估計量	一致估計量

檢驗邏輯圖：

graph LR A[F檢驗 or LR檢驗] --不拒絕原假設,意味著截距項不變動--> B[使用混合迴歸] A --拒絕原假設,意味著截距項變動--> C[豪斯曼檢驗] C --不拒絕原假設--> D[選擇個體隨機效應模型] C --拒絕原假設--> E[選擇個體固定效應模型]

變截距皮膚資料模型建模步驟

graph LR A[輸入資料]-->B[描述性統計分析]-->C[皮膚單位根檢驗] C--資料非平穩-->D[皮膚協整分析] C--資料平穩-->E[變截距檢驗] & F[變係數檢驗] E[F檢驗 or LR檢驗] --不拒絕原假設,意味著截距項不變動--> G[使用混合迴歸] E --拒絕原假設,意味著截距項變動--> H[豪斯曼檢驗] H --不拒絕原假設--> L[選擇個體隨機效應模型] H --拒絕原假設--> M[選擇個體固定效應模型]

python 列出皮膚資料所有變數名
2024-06-09
Python變數
寶塔皮膚資料庫怎麼連
2021-04-02
資料庫
寶塔皮膚根目錄是哪個資料夾
2021-04-01
大資料分析模型有哪些
2023-12-07
大資料模型
5個常用的資料模型，讓資料分析更高效
2021-11-09
模型
資料分析八大模型：同期群模型
2022-02-21
大模型
Omdia：2022年2月全球液晶電視皮膚出貨資料
2022-04-13
Mysql資料庫-資料模型
2024-05-26
MySql資料庫模型
用Python爬取《王者榮耀》英雄皮膚資料並視覺化分析，用圖說話
2021-08-17
Python視覺化
九種常見的資料分析模型
2020-10-29
模型
資料分析模型第三章
2021-01-02
模型
[萌]chrome效能分析皮膚
2018-12-03
Chrome
國雲資料張粵磊：資料分析與價值變現
2021-02-07
5大資料經典模型詳解——資料分析師必須掌握
2021-03-16
大資料模型
資料庫效能需求分析及評估模型
2018-05-14
資料庫模型
36個頂級資料分析方法與模型！
2023-11-15
模型
7000字長文 | 資料分析師能力模型
2022-06-16
模型
雲原生資料庫成熟度模型分析
2022-05-24
資料庫模型
Python資料模型
2019-02-16
Python模型
Cassandra 資料模型
2018-08-26
模型
Hadoop資料模型
2020-09-24
Hadoop模型
寶塔皮膚無法遠端連線資料庫的解決方法
2020-07-02
資料庫
如何利用運維皮膚進行資料庫一鍵安裝和管理？
2020-03-18
運維資料庫
資料預處理- 資料清理資料整合資料變換資料規約
2020-01-15
《資料安全能力成熟度模型》實踐指南11：資料分析安全
2021-03-09
模型
資料分析一定要懂的模型——購物籃模型
2021-08-30
模型
分析 JavaScript 的資料型別與變數
2018-11-14
JavaScript資料型別變數
資料預處理-資料整合與資料變換
2020-01-19
資料分析
2024-12-09
資料夾變exe資料找回方法
2022-06-18
資料分析--資料預處理
2023-12-14
資料分析 | 資料清理的方法
2024-06-27
資料治理之資料模型管控方案
2018-05-07
模型
白話SpringCloud | 第六章：Hystrix監控皮膚及資料聚合(Turbine)
2018-09-26
SpringGCCloud
9- ABC模型之資料分析和應用
2019-07-14
模型
15種最常用的資料分析方法和模型
2021-12-28
模型
分析型資料庫：分散式分析型資料庫
2023-04-17
資料庫分散式
資料分析案例--USDA食品資料庫
2018-10-10
資料庫

資料分析-皮膚資料變截距模型

變截距皮膚資料模型

變截距皮膚資料模型理論介紹

混合效應模型

背景思想

模型假定

公式：

估計方法展示

資料結構展示：

估計方法：

固定效應模型

背景思想

個體固定效應模型

模型假設

模型公式

估計方法展示

時點固定效應模型

模型假設

模型公式

估計方法展示

個體時點固定效應模型

模型假設

模型公式

估計方法

個體時點雙固定效應，控制區域、行業等模型

模型假設

模型公式

估計方法展示

隨機效應模型

個體隨機效應

模型假設

公式：

估計方法展示

模型設定檢驗

F檢驗（chow's test）

LR檢驗

豪斯曼檢驗（Hauseman's test）

檢驗邏輯圖：

變截距皮膚資料模型建模步驟

相關文章