中介因果效應分解 彙總與理解
1. 前言
在學習因果推斷相關文章時[4,5],對總體因果效應如何分解為直接效應和間接效應產生了一些困惑,查閱相關資料[1,2,3]後,將因果效應分解的相關概念彙總形成此文,希望幫助有需要的同學理清概念,加深理解。
關於因果推斷更基礎的知識請參考相關書籍[6,7]。
2. 問題描述
中介效應,是指在因果模型中,Treatment X 對Outcome Y的因果效應可能有一部分是通過中介變數M(Mediation)傳遞過去的。例如:
- 抽菸(X),患肺癌(Y),血脂水平(M)
- 國家(X),新冠死亡率(Y),新冠患者年齡分佈(M)[8],參見【因果推斷論文】中國新冠死亡率更高?- 新冠死亡率的辛普森悖論
- 物品的曝光特徵(如文章標題、視訊封面)(X),使用者對物品的興趣(X),使用者的點選行為(Y)[4]
- 服用藥物(X),病情緩解(Y),阿司匹林服用量(M)[1],參見【因果推斷經典論文】Direct and Indirect Effects - Judea Pearl
- 服用藥物有一個副作用——頭痛,這會導致患者服用阿司匹林的劑量增加。而阿司匹林的服用劑量增加有利於藥物效果的發揮。
在這種因果模型中,我們感興趣的問題是,X對Y的因果效應中,有多大比例是通過M傳遞過去的?
- 中介效應分析對於政策制定[1]、理解資料[8]都有重要作用。
- 例如
- 藥物(X)對病情(Y)的影響有多少是通過阿司匹林劑量(M)造成的?藥物(X)通過直接路徑有多大效果?如果副作用被消除,藥物的效果會受到多大影響?[1]
- 不同國家(X)之間新冠死亡率的差異(Y)有多少是由於患者年齡分佈(M)造成的?[8]
3. 符號定義
當\(X=x,M=m\)時,Y的取值記為\(Y_{xm}\)。
當\(X=x\)時,M的取值記為\(M_x\)。
簡單起見,假設X是二元變數,例如:
- 當\(X=1,M\)取\(X=1\)時M的值時,Y的取值記為\(Y_{1M_1}\)。
- 當\(X=1,M\)取\(X=0\)時M的值時,Y的取值記為\(Y_{1M_0}\)。
在很多論文中,也將X=1記為X=x,將X=0記為\(X=x^\star\),對應的,\(M_1\)記為m,\(M_0\)記為\(m^\star\),則\(Y_{1M_1}\)記為\(Y_{xm}\),\(Y_{1M_0}\)記為\(Y_{xm^\star}\)。
4. 總體效應、直接效應與間接效應
以下以第二部分敘述過的藥物和阿司匹林的例子[1]來說明各個效應的含義。
總體效應(Total Effect, TE):
- 服用藥物對病情緩解整體上有多大作用?
控制直接效應(Controlled Direct Effect, CDE):
- 如果在服用藥物時,囑咐患者將阿司匹林用量調整到m,則藥物會有多大作用?
- 注意這裡的m是人為定義的,既不是服藥前的自然用量,也不是服藥後的自然用量,相當於\(do(M=m)\)
- 由於控制變數——阿司匹林用量是被人為控制的,不是自然的,且衡量的是直接路徑的影響(控制了中介變數為m),因此稱為“控制直接效應”。
自然直接效應(Natural Direct Effect, NDE or Pure Direct Effect, PDE):
- 如果病人在服用藥物的同時,保持阿司匹林服用量不變(不因為藥物副作用而改變阿司匹林用量),則藥物會有多大效果?
- 保持阿司匹林的服用量和服藥之前一致,這個用量對於不同患者來說是不同的——患者由於基礎疾病和身體情況不同,有各自不同的用藥習慣。
- 由於控制變數——阿司匹林用量是“自然”的,且衡量的是直接路徑的影響(控制了中介變數為\(M_0\)),因此稱為“自然直接效應”。
自然間接效應(Natural Indirect Effect, NIE or Pure Indirect Effect, PIE):
- 如果病人不服藥,但是將阿司匹林用量調整到服藥後的量,病情會有多大程度的緩解?
- 只調整阿司匹林的量,估計通過間接路徑產生的因果效應。
- 由於控制變數——不服藥是“自然”的,且衡量的是間接路徑的影響(控制了服藥量為0),因此稱為“自然間接效應”
總體直接效應(Total Direct Effect, TDE)
- 服藥且改變阿司匹林用量,與只改變阿司匹林用量相比,治療效果有多大提升?
- 控制阿司匹林用量都是服藥後的量,比較服藥和不服藥的區別。
- 控制變數——阿司匹林用量是服藥後的自然服用量(包含了服藥的影響),且衡量的是直接路徑的影響(控制了中介變數為\(M_1\)),因此稱為“總體直接效應”。
總體間接效應(Total Indirect Effect, TIE)
- 在服藥的條件下,因為副作用而增加阿司匹林用量對治療效果有影響嗎?
- 控制變數——服藥量為1(不是自然情況,自然情況應該是0),衡量的是間接路徑的影響,稱為“總體間接效應”。
5. 總體效應的分解
總體效應TE可以被分解為直接效應和間接效應[1,2],或分解為直接效應、間接效應和互動效應[3]。[9]
分析\(\left[ \underbrace{\left(\mathbb{E}\left[Y_{1M_1}\right]-\mathbb{E}\left[Y_{1M_0}\right]\right)}_{T I E} - \underbrace{\left(\mathbb{E}\left[Y_{0M_1}\right]-\mathbb{E}\left[Y_{0M_0}\right]\right)}_{P I E/ N I E} \right]\)這一項:
- 如果\(M_1\) = \(M_0\),則此項為0,且總體間接效應和自然間接效應都為0——中介變數不帶變的,就沒有間接效應了。
- 如果\(M_1=1, M_0 = 0\),則
- 如果\(M_1=0, M_0 = 1\),則
因此,(7)式可進一步推導為:
至此,我們得到了非線性模型總體效應的分解方法:
- 分解為直接效應和間接效應[1],有總體直接效應+自然間接效應和自然直接效應+總體間接效應兩種。
- 分解為直接效應、間接效應和互動效應[3],則是自然直接效應+自然間接效應+互動效應。
如果是線性模型,則互動效應為0,\(NDE=TDE, NIE=TIE\)。[1,2,3]
參考文獻
[1] J. Pearl, “Direct and indirect effects,” in Proc. 17th Conf. Uncertainty Artif. Intell., 2001, pp. 411–420
[2] Robins J M, Greenland S. Identifiability and exchangeability for direct and indirect effects[J]. Epidemiology, 1992: 143-155.
[3] VanderWeele T J. A three-way decomposition of a total effect into direct, indirect, and interactive effects[J]. Epidemiology (Cambridge, Mass.), 2013, 24(2): 224.
[4] Wang W, Feng F, He X, et al. Clicks can be cheating: Counterfactual recommendation for mitigating clickbait issue[C]//Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2021: 1288-1297.
[5] Wei T, Feng F, Chen J, et al. Model-agnostic counterfactual reasoning for eliminating popularity bias in recommender system[C]//Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining. 2021: 1791-1800.
[6] Pearl J, Glymour M, Jewell N P. Causal inference in statistics: A primer[M]. John Wiley & Sons, 2016.
[7] Imbens G W, Rubin D B. Causal inference in statistics, social, and biomedical sciences[M]. Cambridge University Press, 2015.
[8] von Kügelgen J, Gresele L, Schölkopf B. Simpson's paradox in Covid-19 case fatality rates: a mediation analysis of age-related causal effects[J]. IEEE Transactions on Artificial Intelligence, 2021, 2(1): 18-27.
[9] Direct and Indirect Effects 饅頭and花捲 部落格園 https://www.cnblogs.com/MTandHJ/p/14615052.html