Simpson's paradox in Covid-19 case fatality rates: a mediation analysis of age-related causal effects
Authors: Julius von Kügelgen , Luigi Gresele , and Bernhard Schölkopf
IEEE Trans on AI 2021,德國馬克斯·普朗克智慧系統研究所,劍橋大學
論文連結:https://ieeexplore.ieee.org/abstract/document/9404149
本文連結:https://www.cnblogs.com/zihaojun/p/15737080.html
0. 前言
本文是第一個將因果推斷方法引入新冠研究領域的論文,在獲得相關資料之後,本文的方法可以被應用到更復雜的資料中去,本文也為進一步理解新冠死亡率背後的機制提供了一個方便和透明的因果框架。
讀這篇文章是為了看一下定量做因果分析的方法,以及總體效應和直接、間接效應的關係。
1. 問題背景和研究目標
從2019年12月武漢疫情爆發開始,新冠病毒迅速在全球蔓延開來,造成了數億的感染和上百萬的死亡病例。在新冠相關的資料中,死亡率是一項重要指標。由於死亡率與年齡高度相關,因此通常會分年齡段來研究死亡率。但是,統計學方法可能會造成一些悖論,例如本文分析的中國和義大利新冠死亡率資料中的辛普森悖論——中國各年齡段的死亡率都高於義大利,但總體死亡率卻比義大利低。
本文用因果推斷的方法研究各個國家、新冠死亡率、年齡分佈之間的關係,尤其是分析了感染者年齡作為中介變數對新冠死亡率的間接影響,為政策制定提供支撐,為後續更復雜資料上的研究打下基礎。
2. 中國和義大利死亡率資料中的辛普森悖論
當比較中國和義大利兩國的新冠死亡率資料時,會發現,在所有年齡段上,義大利的死亡率都比中國低,但義大利的整體死亡率卻比中國更高。如Fig 1 左圖所示,藍色條代表中國,橙色代表義大利。
這種現象被稱為辛普森悖論,在分組比較中都佔優勢的一方,在總評中有時反而是失勢的一方。
辛普森悖論產生的原因是:當我們關注各年齡段死亡率的比較時,忽略了兩國感染人數分佈的差異。如Fig 1右圖所示,義大利的感染人群中,老年人佔比較多,老年群體死亡率比較高;而中國的感染者大部分是中青年人,這些人群的死亡率比較低。這導致在整體上,義大利的死亡率要高得多。
類似的現象還有:
- 在比較紐約和里士滿兩市1910年的肺結核死亡率時,也可以觀察到,紐約的整體死亡率比較低,但如果按種族來劃分人群,則紐約各個種族的肺結核死亡率都比里士滿要高。
3. 新冠死亡率的因果模型
統計學只能發現變數之間的相關性,但相關並不是因果關係。不僅如此,統計學還缺乏因果的語言,無法表達和證明因果關係。從另一個角度講,同一組資料,可以被不同的因果模型解釋,因此,必須引入人類的領域知識來理解資料——建立因果模型。
3.1 因果模型中的變數
在本文中,我們引入一下三個變數:
- 國家(country,C)
- 年齡組(age group,A)
- 死亡率(fatality,F)
3.2 資料生成模型和因果圖
本文只建模感染者死亡率,不建模感染過程。
因果圖如下:
- \(C \rightarrow A\):國家會影響感染者的年齡分佈
- 不同國家的人口年齡結構和社會情況不同
- 防疫政策對不同年齡的人影響是不同的
- \(A \rightarrow F\):感染者的年齡會影響感染者的死亡率
- \(C \rightarrow F\):不同國家的感染者死亡率不同
- 醫療條件不同,例如床位和呼吸機數量和價格
- 疫苗接種率不同
- 對現代醫療的接受程度不同
4 新冠死亡率的總體、直接和間接因果效應
這部分分析理論來自Pearl 2001年發表的一篇文章,參見【因果推斷經典論文】Direct and Indirect Effects - Judea Pearl,因果推斷基礎知識可以參考Causal-Inference-in-Statistics-A-Primer by Judea Pearl,我隨後可能會寫一下Rubin這本Causal Inference for Statistics, Social, and Biomedical Sciences的筆記。
【符號說明】
- T:treatment,本文指選擇哪個國家。
- X:中介變數,本文指新冠感染者的年齡。
- Y:結果變數,本文指感染者因新冠而死亡。
4.1 總體因果效應(Total Causal Effect, TCE)
關於總體因果效應的問題:
- \(Q_{TCE}\):如果將國家由中國換成義大利,新冠死亡率會有什麼變化?
【Definition 1】(TCE)一個二元變數T對Y的總體因果效應被定義為:
- T對Y的總體因果效應被定義為兩種干預結果的差值。
4.2 “為什麼?” 新冠死亡率的中介效應分析
我們不滿足於兩個國家之間的總體差異,更感興趣的是產生這些差異的原因。正如前面分析的,感染者年齡分佈是影響死亡率的重要因素,但政府對感染者的年齡分佈的控制措施很有限,因此我們希望將感染者年齡分佈帶來的死亡率差異和其他因素帶來的差異區分開來。
從因果推斷的角度,這是要將直接因果效應和間接因果效應分開。
4.3 控制直接效應(Controlled Direct Effect, CDE)
控制直接效應是指對中介變數進行干預,從而阻斷中介因果路徑,只保留直接效應。
一個關於控制直接效應的問題:
- \(Q_{CDE(50-59)}\):對於50-59歲的人來說,在中國和義大利感染新冠,哪個更安全?
- 相當於控制了中介變數為50-59歲
【Definition 2】(CDE)在中介變數X=x的條件下,二元變數T對Y的控制直接因果效應為:
控制直接效應中,中介變數的取值是人為定義的,不能代表整個人群的情況。我們更感興趣的是,在真實的感染者年齡分佈下,兩個國家之間的差異,即自然效應。
4.4 自然直接效應(Natural Direct Effect, NDE)
自然直接效應研究的是,保持中介變數在治療前的狀態,則接受治療後,變數Y有什麼變化。
一個關於自然直接效應的問題:
- \(Q_{NDE}\):如果義大利的感染者年齡分佈像中國那樣,義大利的死亡率會比中國的高還是低?(兩個國家之間比)
【Definition 3】(NDE)已知中介變數為X,二元變數T對Y的控制直接因果效應為:
其中\(X(0)\)表示T=0時,X的分佈。
4.5 自然間接效應(Natural Indirect Effect,NIE)
自然間接效應是指,如果中介變數變為治療後的值,但不進行治療,此時變數Y有什麼變化。
一個關於自然間接效應的問題:
- \(Q_{NIE}\):如果中國的感染者年齡分佈變成義大利的分佈,中國的新冠死亡率會有什麼變化?(中國和中國自己比)
【Definition 4】(NIE)已知中介變數為X,二元變數T對Y的自然間接因果效應為:
4.6 中介公式(Mediation Formulas)
在本文假設的因果圖中,可以將(1)-(4)中的因果量轉化為如下統計量:
可以通過(5)-(8)中的統計量,在觀測資料中計算總體、直接和間接因果效應。
4.7 總體效應、自然直接效應和自然間接效應之間的關係(TCE, NDE and NIE)
總體效應可以被分解為自然直接效應和自然間接效應嗎?
- 線上性模型中,答案是肯定的
- 但包括本文的模型在內的大多數模型都是非線性模型,直接效應和間接效應不是獨立的,而是互相依賴的。
- 例如,一個藥物A(Treatment),其起作用需要藉助於啟用體內的某種蛋白質(中介),即,只有藥物A,沒有蛋白質,藥物無效;只有這種蛋白質,沒有藥物A,藥物也無效
- 在這種情況下,自然直接效應和自然間接效應都是0,但總體效應不是0。
- 值得一提的是,控制直接效應可以不是0,因為可以干預蛋白質的量(實際上可能沒有干預的手段)。
- 例如,一個藥物A(Treatment),其起作用需要藉助於啟用體內的某種蛋白質(中介),即,只有藥物A,沒有蛋白質,藥物無效;只有這種蛋白質,沒有藥物A,藥物也無效
5. 年齡分佈對國別和新冠死亡率的中介效應分析
這部分對總體效應、自然直接效應和自然間接效應做定量分析。
5.1 資料集
本文收集了來自11個國家和鑽石公主號上的新冠感染者資料,包括各個年齡段的感染者人數和死亡率。資料集包含756, 044個感染者和68 508個死亡病例,總體死亡率9.06%。
5.2 因果效應隨時間的變化
利用第四部分得出的公式,計算:如果國別從中國變到義大利,對死亡率的因果效應在不同時間段有什麼變化(以周為單位)。在研究時段內,中國的病例數和死亡率比較穩定,因此這些變化主要來自於義大利情況的變化。
- 總體效應(TCE)逐漸上升,說明義大利的總體死亡率相比中國在逐步上升。
- 自然直接效應(NDE)——如果病例年齡分佈都是中國這樣,義大利的死亡率會比中國高多少——一開始是負的,說明如果去除年齡分佈的影響,一開始義大利的死亡率是要比中國低的。但是從三月中旬開始,NDE就變成正值,並逐步提升,與此同時,義大利的醫療系統開始超負荷運轉。直到四月中旬,NDE才穩定下來。
- 自然間接效應(NIE)——如果中國的病例年齡分佈變為義大利的分佈,中國的新冠死亡率有什麼變化——維持了一個比較大的正值,大約在3%到3.5%之間。
總的來說,NIE對TCE的貢獻比較穩定,一直都比較大;而TCE隨時間的變化主要是由NDE的變化導致的。
第二部分提到的中意兩國新冠死亡率的辛普森悖論,是由於在三月上旬,NDE和NIE的符號不同。
值得一提的是,\(NDE+NIE \not = TCE\)。
5.3 多個國家之間的比較
計算不同國家之間的NDE和NIE,得到下圖:
由於這是一個非線性模型,可以看到,\(NDE(t,t^*;Y)\not = NDE(t^*,t;Y)\),NIE同理。
- NDE方面,鑽石公主號、中國、葡萄牙、南非表現較好。
- NDE可以反映各國的醫療等措施的有效性
- NIE方面,南非、哥倫比亞等國表現較好,鑽石公主號最差。
- NIE主要反映感染者年齡分佈對死亡率的影響。
- 國家在NDE和NIE兩個指標上的排名沒什麼相關性,說明國家的防疫措施和感染者年齡分佈關係不大。
- 國家的人口年齡分佈和NIE有很強的相關性,說明各國沒能出臺有效的針對不同年齡人口的防疫措施。
- 在132對國家組合中,64對裡面,NDE和NIE的符號是不同的,這會導致辛普森悖論。這說明,只關注每個國家總體的新冠死亡率是不全面的,不能很好地反映國家防疫措施的有效性,還應該考慮國家的人口年齡結構等因素。
6. 本文的侷限性和未來工作
-
本文設計的因果圖還比較粗糙,可以引入更多中介變數,例如疫苗接種量等。
-
不同國家的檢測策略不同,不同年齡組由於症狀嚴重性不同,檢測比例可能也不同。因此,只分析確診者的資料,可能會產生選擇偏差。
-
本文只分析了公佈了相關資料的國家,而這些國家可能是受新冠影響比較嚴重,政府又有能力收集並公佈資料的國家。
-
感染和死亡有時間差,也會對結果的準確性造成影響。
一些想法
- 我認為5.2最後對辛普森悖論的解釋,應該是因為NDE和TCE的符號不同。
- NDE是負值使得義大利各個年齡段的死亡率都比較低。
- TCE是正值導致義大利總體死亡率比較高。
- NIE是正值且比較大,這是TCE是正值的主要原因。
- 但如果NIE是正值但是比較小,無法抵消NDE的負值,則TCE可能是負值,則不構成辛普森悖論。因此我認為辛普森悖論的解釋應該是NDE和TCE的符號不同。
- 這篇文章在20年5月就寫完了第一版,因此收集的資料量不是很多。
參考文獻
[17] D. Mackenzie, “Race, COVID mortality, and Simpson’s paradox,” Retrieved: Jul. 6, 2020. [Online]. Available: http://causality.cs.ucla.edu/blog/index.php/2020/07/06/race-covid-mortality-and-simpsonsparadox-by-dana-mackenzie/
[18] J. Pearl, “Direct and indirect effects,” in Proc. 17th Conf. Uncertainty Artif. Intell., 2001, pp. 411–420
[55] J. Pearl et al. “External validity: From do-calculus to transportability across populations,” Statist. Sci., vol. 29, no. 4, pp. 579–595, 2014.
[56] E. Bareinboim and J. Pearl, “Causal inference and the data-fusion problem,” Proc. Nat. Acad. Sci. USA, vol. 113, no. 27, pp. 7345–7352, 2016.