因果模型:邊緣結構模型MSM

天一亮就跑發表於2020-11-01

閱讀James M. Robins的文章Marginal Structural Models and Causal Inference in Epidemiology[1]後的筆記


基本概念

  邊緣結構模型(Marginal structural models,MSMs)是一種因果模型,用於調整影響隨時間變化的處理/治療方案(time-varying treatments)的時依性混雜因子(time-dependent confounding),使得我們能無偏估計因果效應(unbiased estimation of casual effects)[2]

  傳統的估計時變性處理的因果效應的方法是對結果的概率建立迴歸方程,將過去的處理(past treatment/exposure)和過去的混雜因子(past confounder)作為方程的變數,通常使用分層法等(比如邏輯迴歸或者Cox比例風險迴歸模型)。這些方法,無論是否對混雜因子進行調整,都會存在偏倚(biased)。所以提出了MSM模型。

  時依性混雜因子的定義:⑴是時依性的協變數,能夠用於預測目標事件(是目標事件的風險因子),且能預測處理;⑵過去的預測方案能預測此變數;⑶自身過去的狀態能預測現在的狀態。

MSM的基本思想

  記時間為 k k k,將可觀測的對結果有影響的風險因子記為 L k L_k Lk,將不可觀測(即無法收集這個變數的值)的對結果有影響的風險因子記為 U k U_k Uk,將時變性處理記為 A k A_k Ak,將結果記為 Y Y Y。MSM假設不存在影響處理的不可觀測風險因子,即不可測假設(untestable assumption),因此MSM假設下的因果圖應該如圖(a)所示。
存在混雜因子影響處理時的因果關係圖

圖(a) 左側為多個時間構成的因果圖,右側為單時刻的因果圖(未去混雜)

  MSM使用逆處理概率加權法(Inverse Probability of Treatment Weighting,IPTW)消去可觀測的混雜因子對處理的影響。也就是說採用IPTW生成各物件組的偽分佈,每組處理(treatment)的偽分佈都相同,使得處理相對於混雜因子獨立,反映在圖上就是刪除了從混雜因子到處理的弧,處理後的因果圖如圖(b)所示。

去除混雜因子影響處理時的因果關係圖

圖(b) 左側為多個時間構成的因果圖,右側為單時刻的因果圖(已去混雜)

因果效應的估計函式

  取單個時刻(如圖(b)右側子圖所示)為例,假設取值都是二元的,處理不受混雜因子影響。使用粗風險差/粗危險差/粗率差(crude risk difference,RD)、粗風險比/粗相對危險度/粗危險比/粗率比(crude risk ratio,RR)、粗優勢比/粗比值比(crude odds ratio,OR)估計處理對結果的影響(因果效應)。三者的計算公式如下:
c R D = p r [ Y = 1 ∣ A 0 = 1 ] − p r [ Y = 1 ∣ A 0 = 0 ] (1) cRD=pr[Y=1|A_0=1]-pr[Y=1|A_0=0]\tag{1} cRD=pr[Y=1A0=1]pr[Y=1A0=0](1)
c R R = p r [ Y = 1 ∣ A 0 = 1 ] p r [ Y = 1 ∣ A 0 = 0 ] (2) cRR=\frac{pr[Y=1|A_0=1]}{pr[Y=1|A_0=0]}\tag{2} cRR=pr[Y=1A0=0]pr[Y=1A0=1](2)
c O R = p r [ Y = 1 ∣ A 0 = 1 ] / p r [ Y = 1 ∣ A 0 = 0 ] p r [ Y = 0 ∣ A 0 = 1 ] / p r [ Y = 0 ∣ A 0 = 0 ] (3) cOR=\frac{pr[Y=1|A_0=1]/pr[Y=1|A_0=0]}{pr[Y=0|A_0=1]/pr[Y=0|A_0=0]}\tag{3} cOR=pr[Y=0A0=1]/pr[Y=0A0=0]pr[Y=1A0=1]/pr[Y=1A0=0](3)
  前者是從觀測資料角度得到因果的。從因果分析角度出發,處理的因果對比形式與以上計算公式相同,但是涉及了反事實(counterfactual)變數的概念。將被處理後的結果記為 Y a 0 = 1 Y_{a_0=1} Ya0=1,將未受到處理的結果記為 Y a 0 = 0 Y_{a_0=0} Ya0=0,以上兩者無法被同時觀測到,這就是反事實的概念。則這個個體的因果效應為 Y a 0 = 1 − Y a 0 = 0 Y_{a_0=1}-Y_{a_0=0} Ya0=1Ya0=0。相應的,因果風險差(causal risk difference)、因果風險比(causal risk ratio)、因果優勢比(causal odds ratio)的計算公式如下:
c a u s a l   R D = p r [ Y a 0 = 1 = 1 ] − p r [ Y a 0 = 0 = 1 ] (4) causal\ RD=pr[Y_{a_0=1}=1]-pr[Y_{a_0=0}=1]\tag{4} causal RD=pr[Ya0=1=1]pr[Ya0=0=1](4)
c a u s a l   R R = p r [ Y a 0 = 1 = 1 ] p r [ Y a 0 = 0 = 1 ] (5) causal\ RR=\frac{pr[Y_{a_0=1}=1]}{pr[Y_{a_0=0}=1]}\tag{5} causal RR=pr[Ya0=0=1]pr[Ya0=1=1](5)
c a u s a l   O R = p r [ Y a 0 = 1 = 1 ] / p r [ Y a 0 = 0 = 1 ] p r [ Y a 0 = 1 = 0 ] / p r [ Y a 0 = 0 = 0 ] (6) causal\ OR=\frac{pr[Y_{a_0=1}=1]/pr[Y_{a_0=0}=1]}{pr[Y_{a_0=1}=0]/pr[Y_{a_0=0}=0]}\tag{6} causal OR=pr[Ya0=1=0]/pr[Ya0=0=0]pr[Ya0=1=1]/pr[Ya0=0=1](6)
  當處理不受混雜因子影響時,以上六個公式兩兩相等。

單時刻建模以及MSM釋義

   c a u s a l   R D causal\ RD causal RD c a u s a l   R R causal\ RR causal RR c a u s a l   O R causal\ OR causal OR可以分別表示為自變數是處理 a 0 a_0 a0的三種模型,分別為線性(linear)、對數線性(log linear)和線性邏輯模型(linear logistic model),考慮單時刻情況,將(7-9)記為因果模型:
p r [ Y a 0 = 1 ] = ψ 0 + ψ 1 a 0 (7) pr[Y_{a_0}=1]=\psi_0+\psi_1a_0\tag{7} pr[Ya0=1]=ψ0+ψ1a0(7)
log ⁡ p r [ Y a 0 = 1 ] = θ 0 + θ 1 a 0 (8) \log pr[Y_{a_0}=1]=\theta_0+\theta_1a_0\tag{8} logpr[Ya0=1]=θ0+θ1a0(8)
l o g i t   p r [ Y a 0 = 1 ] = β 0 + β 1 a 0 (9) logit\ pr[Y_{a_0}=1]=\beta_0+\beta_1a_0\tag{9} logit pr[Ya0=1]=β0+β1a0(9)
  分別將 a 0 = 1 a_0=1 a0=1 a 0 = 0 a_0=0 a0=0代入(7-9)式,再代入到(4-6)式,可以得到 c a u s a l   R D = ψ 1 causal\ RD=\psi_1 causal RD=ψ1 c a u s a l   R R = e θ 1 causal\ RR=e^{\theta_1} causal RR=eθ1 c a u s a l   O R = e β 1 causal\ OR=e^{\beta_1} causal OR=eβ1。將(7-9)記為飽和MSM模型(saturated MSMs)。

  同樣的,從觀測資料角度可以得到粗風險差、粗風險比和粗優勢比的飽和線性、對數和線性邏輯模型,將(10-12)記為資料模型:
p r [ Y = 1 ∣ A 0 = a 0 ] = ψ 0 ′ + ψ 1 ′ a 0 (10) pr[Y=1|A_0=a_0]=\psi_0^{'}+\psi_1^{'}a_0\tag{10} pr[Y=1A0=a0]=ψ0+ψ1a0(10)
log ⁡ p r [ Y = 1 ∣ A 0 = a 0 ] = θ 0 ′ + θ 1 ′ a 0 (11) \log pr[Y=1|A_0=a_0]=\theta_0^{'}+\theta_1^{'}a_0\tag{11} logpr[Y=1A0=a0]=θ0+θ1a0(11)
l o g i t   p r [ Y = 1 ∣ A 0 = a 0 ] = β 0 ′ + β 1 ′ a 0 (12) logit\ pr[Y=1|A_0=a_0]=\beta_0^{'}+\beta_1^{'}a_0\tag{12} logit pr[Y=1A0=a0]=β0+β1a0(12)
  可以得到 c R D = ψ 1 ′ cRD=\psi_1^{'} cRD=ψ1 c R R = e θ 1 ′ cRR=e^{\theta_1^{'}} cRR=eθ1 c O R = e β 1 ′ cOR=e^{\beta_1^{'}} cOR=eβ1。(10-12)表示的模型是為觀測到的資料關聯關係構建的模型,因此僅當處理是非混淆的情況下,因果模型(7-9)的引數才與資料模型(10-12)的引數相同。

  對邊緣結構模型MSM的解釋如下:

  • 邊緣性(marginal):對反事實隨機變數 Y a 0 = 1 Y_{a_0=1} Ya0=1 Y a 0 = 0 Y_{a_0=0} Ya0=0建立了邊緣分佈((7-9)式左半邊)而不是聯合分佈,也就是不對 Y a 0 = 1 Y_{a_0=1} Ya0=1 Y a 0 = 0 Y_{a_0=0} Ya0=0之間的相關性建模。
  • 結構化(structural):對反事實變數的概率進行建模,在計量經濟學和社會科學中常常把反事實變數的建模稱為結構化。
  • 飽和性(saturated): p r [ Y a 0 = 1 = 1 ] pr[Y_{a_0=1}=1] pr[Ya0=1=1] p r [ Y a 0 = 0 = 1 ] pr[Y_{a_0=0}=1] pr[Ya0=0=1]是兩種未知的概率,模型也有兩個未知的引數,因此模型未對兩種未知的概率值進行限制。

逆處理概率加權法(IPTW)

  當處理存在混淆時(受混雜因子影響),因果模型的引數將與資料模型的引數不相等。MSM模型假設不存在不可觀測的混雜因子(No unmeasured confounders),那麼就可以採用加權分析方法去除混雜因子的影響。

  設 i i i為種類(Subject)編號,每個種類的權重記為式(13)。
w i = 1 p r [ A 0 = a 0 i ∣ L 0 = l 0 i ] (13) w_i=\frac{1}{pr[A_0=a_{0i}|L_0=l_{0i}]} \tag{13} wi=pr[A0=a0iL0=l0i]1(13)
   l 0 i l_{0i} l0i是第 i i i類的 L 0 L_0 L0觀測值。 w i w_i wi的值可以通過式(14)使用迴歸方法進行估計,統計不同的 a 0 a_0 a0 l 0 l_0 l0並回歸得到引數。
l o g i t   p r [ A 0 = a 0 ∣ L 0 = l 0 ] = α 0 + α 1 l 0 (14) logit\ pr[A_0=a_0|L_0=l_0]=\alpha_0+\alpha_1l_0 \tag{14} logit pr[A0=a0L0=l0]=α0+α1l0(14)
  當取 A 0 = 1 A_0=1 A0=1時, w i = 1 + exp ⁡ ( − a ^ 0 − a ^ 1 l 0 i ) w_i=1+\exp(-\hat{a}_0-\hat{a}_1l_{0i}) wi=1+exp(a^0a^1l0i);當取 A 0 = 0 A_0=0 A0=0時, w i = 1 + exp ⁡ ( a ^ 0 + a ^ 1 l 0 i ) w_i=1+\exp(\hat{a}_0+\hat{a}_1l_{0i}) wi=1+exp(a^0+a^1l0i)。這種方法能消除混雜因子影響的原因在於,IPTW為每類複製 w i w_i wi份,形成偽總體分佈,這種情況下,⑴相同的 A 0 A_0 A0取值時,任意的 L 0 L_0 L0取值概率都相同,因此 A 0 A_0 A0是非混淆的;⑵因為 A 0 A_0 A0是非混淆的,因此在上述偽分佈資料中,資料模型得到的因果效應將與因果模型得到的結果一致。

從二分類到多分類:多層處理與非飽和MSM模型

  當處理多層非二值(multilevel treatment)、是長為 N N N的序列值(比如為服藥劑量,0~15mg共 N = 16 N=16 N=16種取值,且劑量是線性變化的)時,相應的潛在結果(potential outcomes)也將有多種取值(比如16種)。這種情況下,為了構造飽和模型必須設定多個引數(比如16個),因此無法再使用飽和模型進行建模。
  為了克服這種問題,假設處理效果是線性變化的(即簡化劑量反應關係,parsimonious dose-response relationship),那麼可以將因果模型寫作非飽和的式(15)。
l o g i t   p r [ Y a 0 = 1 ] = β 0 + β 1 a 0 (15) logit\ pr[Y_{a_0}=1]=\beta_0+\beta_1a_0 \tag{15} logit pr[Ya0=1]=β0+β1a0(15)
  其中, β 1 \beta_1 β1是斜率引數。當劑量增加1時, c a u s a l   O R causal\ OR causal OR增加 e β 1 e^{\beta_1} eβ1。對應的資料模型就可以寫作式(16)。
l o g i t   p r [ Y = 1 ∣ A 0 = a 0 ] = β 0 ′ + β 1 ′ a 0 (16) logit\ pr[Y=1|A_0=a_0]=\beta_0^{'}+\beta_1^{'}a_0 \tag{16} logit pr[Y=1A0=a0]=β0+β1a0(16)
  與前面的分析相同,當處理是非混淆的情況下,兩者估計的引數是相同的。當處理僅受可觀測混雜因子 L 0 L_0 L0影響時,可以使用IPTW調節種類分佈達到去混雜的效果。對於序列變數, w i = 1 / p r [ A 0 = a 0 i ∣ L 0 = l 0 i ] w_i=1/pr[A_0=a_{0i}|L_0=l_{0i}] wi=1/pr[A0=a0iL0=l0i]可由式(17)進行估計。
p r [ A 0 = a 0 ∣ L 0 = l 0 ] = exp ⁡ ( α 0 a 0 + α 1 l 0 ) 1 + Σ j = 1 N exp ⁡ ( α 0 j + α 1 l 0 ) ,   a 0 = 1 , … , N ; pr[A_0=a_0|L_0=l_0]=\frac{\exp(\alpha_{0a_0}+\alpha_1l_0)}{1+\Sigma_{j=1}^N\exp(\alpha_{0j}+\alpha_1l_0)},\ a_0=1,\dots,N; pr[A0=a0L0=l0]=1+Σj=1Nexp(α0j+α1l0)exp(α0a0+α1l0), a0=1,,N;
p r [ A 0 = 0 ∣ L 0 = l 0 ] = 1 1 + Σ j = 1 N exp ⁡ ( α 0 j + α 1 l 0 ) ,   a 0 = 1 , … , N ; (17) pr[A_0=0|L_0=l_0]=\frac{1}{1+\Sigma_{j=1}^N\exp(\alpha_{0j}+\alpha_1l_0)},\ a_0=1,\dots,N; \tag{17} pr[A0=0L0=l0]=1+Σj=1Nexp(α0j+α1l0)1, a0=1,,N;(17)
  式(16)可以理解為類Softmax多元邏輯迴歸函式,在不處理時(劑量為0)分子設為常量1。

穩定權重(Stabilized Weights)

  當某些處理狀態 A 0 A_0 A0與混雜因子 L 0 L_0 L0高度相關時,很有可能某些狀態組合會缺乏觀測資料。這會導致樣本數量非常少,繼而由 w i w_i wi調整得到的偽總體分佈中該部分佔比非常大,會影響分析效果。穩定權重 s w i sw_i swi記為式(18)。
s w i = p r [ A 0 = a 0 i ] p r [ A 0 = a 0 i ∣ L 0 = l 0 i ] (18) sw_i=\frac{pr[A_0=a_{0i}]}{pr[A_0=a_{0i}|L_0=l_{0i}]} \tag{18} swi=pr[A0=a0iL0=l0i]pr[A0=a0i](18)
  估計 s w i sw_i swi的值需要計算分子和分母兩部分,分母可以採用式(16)計算,分子計算公式見式(19)。
p r [ A 0 = a 0 ] = exp ⁡ ( α 0 a 0 ∗ ) 1 + Σ j = 1 N exp ⁡ ( α 0 j ∗ ) ,   a 0 = 1 , … , N ; pr[A_0=a_0]=\frac{\exp(\alpha_{0a_0}^*)}{1+\Sigma_{j=1}^N\exp(\alpha_{0j}^*)},\ a_0=1,\dots,N; pr[A0=a0]=1+Σj=1Nexp(α0j)exp(α0a0), a0=1,,N;
p r [ A 0 = 0 ] = 1 1 + Σ j = 1 N exp ⁡ ( α 0 j ∗ ) ,   a 0 = 1 , … , N ; (19) pr[A_0=0]=\frac{1}{1+\Sigma_{j=1}^N\exp(\alpha_{0j}^*)},\ a_0=1,\dots,N; \tag{19} pr[A0=0]=1+Σj=1Nexp(α0j)1, a0=1,,N;(19)
   α 0 a 0 ∗ \alpha_{0a_0}^* α0a0的星號表明當 A 0 A_0 A0是混淆的情況時此引數與 α 0 a 0 \alpha_{0a_0} α0a0不相同。這是因為在計算 α 0 a 0 \alpha_{0a_0} α0a0時是以不同的 L 0 L_0 L0作為條件的,也就是說分別對不同的子集進行計算,當存在混淆時,各子集的分佈不相同,與總體的分佈自然不同。

從分類到離散:連續處理下的穩定權重

  當處理變數是連續的情況下, w i w_i wi的方差趨於無窮,因此不能使用。假設 A 0 A_0 A0服從正態分佈,則 s w i sw_i swi可寫作式(20),其中 f ( ∗ ) f(*) f()是概率密度函式。
s w i = f ( a 0 i ) f ( a 0 i ∣ l 0 i ) (20) sw_i=\frac{f(a_{0i)}}{f(a_{0i}|l_{0i})} \tag{20} swi=f(a0il0i)f(a0i)(20)
  為了估計 f ( a 0 i ∣ l 0 i ) f(a_{0i}|l_{0i}) f(a0il0i),給定 L 0 L_0 L0 A 0 ∼ N ( α 0 + α 1 L 0 , σ 2 ) A_0\sim N(\alpha_0+\alpha_1L_0,\sigma^2) A0N(α0+α1L0,σ2),因此 f ( a 0 i ∣ l 0 i ) f(a_{0i}|l_{0i}) f(a0il0i)可表示為式(21);為了估計 f ( a 0 i ) f(a_{0i}) f(a0i),給定 L 0 L_0 L0 A 0 ∼ N ( α 0 ∗ , σ ∗ 2 ) A_0\sim N(\alpha_0^*,{\sigma^*}^2) A0N(α0,σ2),因此 f ( a 0 i ∣ l 0 i ) f(a_{0i}|l_{0i}) f(a0il0i)可表示為式(22)。
f ( a 0 i ∣ l 0 i ) = 1 2 π σ ^ 2 e − [ a 0 i − ( α ^ 0 + α ^ 1 l 0 i ) ] 2 2 σ ^ 2 (21) f(a_{0i}|l_{0i})=\frac{1}{\sqrt{2\pi\hat\sigma^2}}e^{-\frac{[a_{0i}-(\hat\alpha_0+\hat\alpha_1l_{0i})]^2}{2\hat\sigma^2}} \tag{21} f(a0il0i)=2πσ^2 1e2σ^2[a0i(α^0+α^1l0i)]2(21)
f ( a 0 i ∣ l 0 i ) = 1 2 π σ ^ ∗ 2 e − [ a 0 i − α ^ 0 ∗ ] 2 2 σ ^ ∗ 2 (22) f(a_{0i}|l_{0i})=\frac{1}{\sqrt{2\pi{\hat\sigma^*}^2}}e^{-\frac{[a_{0i}-\hat\alpha_0^*]^2}{2{\hat\sigma^*}^2}} \tag{22} f(a0il0i)=2πσ^2 1e2σ^2[a0iα^0]2(22)

多時刻建模:時依性處理(Time-dependent Treatments)

  記上標 A ˉ \bar A Aˉ為時序處理序列(歷史劑量), A ˉ = ( A 0 , … , A k ) \bar A=(A_0,\dots,A_k) Aˉ=(A0,,Ak)。其他變數不再贅述。在最簡單的情況下,即每個處理 a i a_i ai都是二值的,那麼 Y a ˉ Y_{\bar a} Yaˉ 2 k 2^k 2k種可能取值。因此,在這裡假設仍然服從簡化劑量反應關係,則線性邏輯MSM因果模型可以寫作式(23)。
l o g i t   p r [ Y a ˉ = 1 ] = β 0 + β 1 c u m ( a ˉ ) (23) logit\ pr[Y_{\bar a}=1]=\beta_0+\beta_1cum(\bar a) \tag{23} logit pr[Yaˉ=1]=β0+β1cum(aˉ)(23)
  式中 c u m ( a ˉ ) = Σ a k cum(\bar a)=\Sigma a_k cum(aˉ)=Σak是歷史處理的累計劑量和。相應的,資料模型可以寫作式(24)。
l o g i t   p r [ Y = 1 ∣ A ˉ = a ˉ ] = β 0 ′ + β 1 ′ c u m ( a ˉ ) (24) logit\ pr[Y=1|\bar A=\bar a]=\beta_0^{'}+\beta_1^{'}cum(\bar a) \tag{24} logit pr[Y=1Aˉ=aˉ]=β0+β1cum(aˉ)(24)
  多時刻建模傳統方法的不足:使用未調整權重的邏輯迴歸模型將不可避免地引入偏倚。這是因為⑴ L k L_k Lk是後續處理的混雜因子,因此必須調整;⑵但同時 L k L_k Lk是由前面處理影響的,因此不能被標準迴歸方法調整。因此使用 L k L_k Lk計算 s w i sw_i swi用於處理 A k A_k Ak的去混雜,而不是將 L k L_k Lk加入迴歸方程中,這也是本文的目的所在。

多時刻建模:穩定權重的求解

  在僅有 L k L_k Lk的混淆影響下,可以使用 s w i sw_i swi得到無偏估計,見式(25)。
s w i = ∏ k = 0 K p r [ A k = a k i ∣ A ˉ k − 1 = a ˉ ( k − 1 ) i ] ∏ k = 0 K p r [ A k = a k i ∣ A ˉ k − 1 = a ˉ ( k − 1 ) i , L ˉ k = l ˉ k i ] (25) sw_i=\frac{\prod_{k=0}^K pr[A_k=a_{ki}|\bar A_{k-1}=\bar a_{(k-1)i}]}{\prod_{k=0}^K pr[A_k=a_{ki}|\bar A_{k-1}=\bar a_{(k-1)i},\bar L_k=\bar l_{ki}]} \tag{25} swi=k=0Kpr[Ak=akiAˉk1=aˉ(k1)i,Lˉk=lˉki]k=0Kpr[Ak=akiAˉk1=aˉ(k1)i](25)
  對 s w i sw_i swi的求解分為兩部分,第一部分建立迴歸模型,第二部分進行引數估計並代入回 s w i sw_i swi計算公式。

  對 s w i sw_i swi的分母和分子建立迴歸模型,需要考慮處理和混雜因子的實際物理意義。例如若處理的概率與日期 k k k、前兩天的處理、今天和昨天的混雜因子、昨天的處理和今天的混雜因子相互作用、和基線混雜因子(baseline covariates)有關,那麼模型可以寫作式(26)(這裡同樣假設處理是二值的)。
l o g i t   p r [ A k = 1 ∣ A ˉ k − 1 = a ˉ k − 1 , L ˉ k = l ˉ k ] = α 0 + α 1 k + α 2 a k − 1 + α 3 a k − 2 + α 4 l k + α 5 l k − 1 + α 6 a k − 1 l k + α + 7 l 0 logit\ pr[A_k=1|\bar A_{k-1}=\bar a_{k-1},\bar L_k=\bar l_k]=\alpha_0+\alpha_1k+\alpha_2a_{k-1}+\alpha_3a_{k-2}\\ +\alpha_4l_k+\alpha_5l_{k-1}+\alpha_6a_{k-1}l_k+\alpha+7l_0 logit pr[Ak=1Aˉk1=aˉk1,Lˉk=lˉk]=α0+α1k+α2ak1+α3ak2+α4lk+α5lk1+α6ak1lk+α+7l0
l o g i t   p r [ A k = 1 ∣ A ˉ k − 1 = a ˉ k − 1 ] = α 0 ∗ + α 1 ∗ k + α 2 ∗ a k − 1 + α 3 ∗ a k − 2 (26) logit\ pr[A_k=1|\bar A_{k-1}=\bar a_{k-1}]=\alpha_0^*+\alpha_1^*k+\alpha_2^*a_{k-1}+\alpha_3^*a_{k-2} \tag{26} logit pr[Ak=1Aˉk1=aˉk1]=α0+α1k+α2ak1+α3ak2(26)
  對於每類 i i i,可以由式(25)求得 p r pr pr的最大似然估計值 p ^ 0 i , … , p ^ K i \hat p_{0i},\dots,\hat p_{Ki} p^0i,,p^Ki p ^ 1 i ∗ , … , p ^ K i ∗ \hat p_{1i}^*,\dots,\hat p_{Ki}^* p^1i,,p^Ki。當 A k = 0 A_k=0 Ak=0時,顯然估計值為 1 − p ^ 0 i 1-\hat p_{0i} 1p^0i,不再贅述。因此,將估計值代入式(24),可得 s w i sw_i swi的計算式(27)。
s w i = ∏ k = 0 K ( p ^ k i ∗ ) a k i ( 1 − p ^ k i ∗ ) 1 − a k i ∏ k = 0 K ( p ^ k i ) a k i ( 1 − p ^ k i ) 1 − a k i (27) sw_i=\frac{\prod_{k=0}^K (\hat p_{ki}^*)^{a_{ki}}(1-\hat p_{ki}^*)^{1-a_{ki}}}{\prod_{k=0}^K (\hat p_{ki})^{a_{ki}}(1-\hat p_{ki})^{1-a_{ki}}} \tag{27} swi=k=0K(p^ki)aki(1p^ki)1akik=0K(p^ki)aki(1p^ki)1aki(27)

多時刻建模:預處理協變數帶來的效應修飾作用(Effect Modifier)

  效應修飾作用(effect modifier)反應的是處理與結果關係的強弱,通常情況下僅與結果有關,與處理無關,不會引起偏倚(bias),將其加入迴歸模型能提升各類(subject)的估計準確性。而混雜因子(confounder)反應的是處理與結果關係的有無,與處理和結果均存在關聯,不考慮混雜會產生偏倚。直覺性的圖解見圖(c {} )[3],其中 A A A表示效應修飾作用, C 1 C_1 C1表示混雜因子。
效應修飾作用與混雜因子

圖(c) 效應修飾作用與混雜因子

  假設 V V V是預處理協變數 L 0 L_0 L0的子集,由於 V V V已被IPTW調整過,因此僅當 V V V確定對因果效應有很大影響時,才會考慮將其加入迴歸方程。將 V V V加入到式(24),一個資料模型的例子如式(28)所示,相應的 s w i sw_i swi概率調整如式(29)所示。
l o g i t   p r [ Y = 1 ∣ A ˉ = a ˉ , V = v ] = β 0 + β 1 c u m ( a ˉ ) + β 2 v + β 3 c u m ( a ˉ ) v (28) logit\ pr[Y=1|\bar A=\bar a,V=v]=\beta_0+\beta_1cum(\bar a)+\beta_2v+\beta_3cum(\bar a)v \tag{28} logit pr[Y=1Aˉ=aˉ,V=v]=β0+β1cum(aˉ)+β2v+β3cum(aˉ)v(28)
l o g i t   p r [ A k = 1 ∣ A ˉ k − 1 = a ˉ k − 1 , V = v ] = α 0 ∗ + α 1 ∗ k + α 2 ∗ a k − 1 + α 3 ∗ a k − 2 + α 4 ∗ v (29) logit\ pr[A_k=1|\bar A_{k-1}=\bar a_{k-1},V=v]=\alpha_0^*+\alpha_1^*k+\alpha_2^*a_{k-1}+\alpha_3^*a_{k-2}+\alpha_4^*v \tag{29} logit pr[Ak=1Aˉk1=aˉk1,V=v]=α0+α1k+α2ak1+α3ak2+α4v(29)

失訪情況下的因果效應分析

  失訪表示失去隨訪(lose to follow-up),通常是由於觀察物件死亡、結束或資料無法收集等導致的資料缺失情況。使用MSM模型能在失訪的情況下進行因果效應分析。記 k k k時刻失訪為 C k = 1 C_k=1 Ck=1,未失訪為 C k = 0 C_k=0 Ck=0,並假設失訪後目標不會再次接受隨訪。將失訪加入模型中的思想也比較簡單,是在 A k − 1 A_{k-1} Ak1 L k L_k Lk間插入 C k C_k Ck,即 A k − 1 ⟶ C k ⟶ L k A_{k-1}\longrightarrow C_k\longrightarrow L_k Ak1CkLk。其物理意義例如,當病人服用一定劑量的藥物後,可能失訪,導致結果不可知。

  接下來是如何把 C k C_k Ck加入MSM迴歸模型的問題。結果 Y Y Y能觀測必然的前提是 C ˉ = ( C 0 , … , C K + 1 ) = 0 \bar C=(C_0,\dots,C_{K+1})=0 Cˉ=(C0,,CK+1)=0,也就是說在整個隨訪週期中均未發生失訪現象。因此,各個類別的權重 s w i sw_i swi就需要加入對隨訪丟失的考慮,隨訪丟失越嚴重,類別所佔比例越小,權重調整就越大。失訪情況下的權重可寫作 s w i × s w i † sw_i\times sw_i^\dagger swi×swi s w i sw_i swi仍然使用式(25), s w i † sw_i^\dagger swi是逆審查權重概率(inverse probability of censoring weighting),寫作式(30)。
s w i † = ∏ k = 0 K + 1 p r [ C k = 0 ∣ C ˉ k − 1 = 0 , A ˉ k − 1 = a ˉ ( k − 1 ) i ] ∏ k = 0 K + 1 p r [ C k = 0 ∣ C ˉ k − 1 = 0 , A ˉ k − 1 = a ˉ ( k − 1 ) i , L ˉ k = l ˉ k i ] (30) sw_i^\dagger=\frac{\prod_{k=0}^{K+1} pr[C_k=0|\bar C_{k-1}=0,\bar A_{k-1}=\bar a_{(k-1)i}]}{\prod_{k=0}^{K+1} pr[C_k=0|\bar C_{k-1}=0,\bar A_{k-1}=\bar a_{(k-1)i},\bar L_k=\bar l_{ki}]} \tag{30} swi=k=0K+1pr[Ck=0Cˉk1=0,Aˉk1=aˉ(k1)i,Lˉk=lˉki]k=0K+1pr[Ck=0Cˉk1=0,Aˉk1=aˉ(k1)i](30)

MSM的侷限性

  當混雜因子在某個狀態下,所有觀察物件的處理都是相同的,這時無法使用MSM模型進行計算。(因為有的概率值為0,連乘也為0。這表明MSM服從正值性Positivity假設)


參考

[1] James M. Robins, Miguel A. Hernan, Babette Brumback. Marginal Structural Models and Causal Inference in Epidemiology[J]. Epidemiology, 2000, 11(5): 550-60.
[2] Thomas Fuchs. Slide 1 of MSM[DB/OL]. 2006. (Accessed in October 29, 2020)
[3] Tyler J. VanderWeele. Confounding and Effect Modification: Distribution and Measure[J]. Epidemiologic Methods, 2012, 1(1): 55-82.

相關文章