因果關係分析方法簡介

哈工大SCIR發表於2016-11-01

1 引言

與相關關係相比,因果關係是對問題更本質的認識。諸如物理學、行為學、社會學和生物學中許多研究的中心問題是對因果的闡述,即對變數或事件之間直接作用關係的闡述。例如,一種新型藥物在給定患者人群中療效如何?一個新的法規可避免多大比例的犯罪?在一個特定事故中,個體死亡的原因是什麼?這些都是因果問題,因為要回答這些問題都需要有資料生成過程的知識。這些問題的答案不能單獨通過計算資料獲得也不能單獨從控制觀測資料的分佈中獲得。分析因果關係的黃金法則是實施隨機對照實驗。多數情況下實施實驗的代價很高或者由於客觀條件、倫理道德等因素的限制使得隨機對照實驗根本不可行。

然而隨著網際網路和資料科學的發展,收集非實驗的觀測資料卻要容易的多。所以到目前為止發展了一些從資料中自動挖掘這種因果的方法。目前,至少有三類挖掘本質因果的方法,它們在使用的資料型別和自動化程度上都存在差異。第一類方法是隨機對照實驗方法。它要求分析者要對實驗資料的產生過程有很深入的瞭解以及很高的控制能力。第二類方法是準實驗設計方法,它是一種在社會學研究中被大量使用的方法。這種方法是在觀測資料中試圖尋找能像隨機實驗方法一樣滿足因果推斷條件的情形來進行觀測資料上的因果推斷(Shadish et al., 2002; Campbell and Stanley, 2015; Thyer, 2012)。第三類方法是聯合模型方法,大致上又分為圖模型方法和虛擬事實模型方法。這種方法在一些假設的前提下自動對聯合概率分佈進行估計來從非實驗資料或者觀測資料中推斷因果。

這三種方法面臨一些共同的挑戰。首先,這些方法都需要識別一對變數之間是否存在統計相關性。推斷統計相關性的原則和方法,即統計假設檢驗,已經提出了幾十年。不管對於人工的還是自動的演算法來說解決這個問題的困難都不大,但卻也仍舊存在一些挑戰。比如,它的對立面問題:統計獨立性檢驗和完全的條件獨立性檢驗就仍舊是一個非常活躍的研究領域(Sriperumbudur et al., 2010; Szekely et al., 2009; Gretton et al., 2012; Zhang et al., 2012)。其次,這些方法必須要識別潛在因果的方向,即哪個為因哪個為果。對於這個問題往往通過考慮時序的方法來解決,即先發生的為因後發生的為果。但是在聯合模型方法中也常常用一些其它的方法,下文詳述。最後,這些方法都必須要避免其它的混淆因素的影響,即其它潛在的共同原因對變數之間因果關係的干擾。本文將詳細論述不同型別的方法對於解決這些問題的嘗試。

2 隨機對照實驗

當今對於挖掘有效的因果知識來說,可能最普遍的方法就是隨機對照實驗。在過去的50多年中,生物學、物理學和社會科學等的快速發展擴張很大一部分有賴於如何設計實驗並分析結果的知識。對於實驗設計方法的發現整理並傳播代表了過去一個世紀以來的人類智力成果。隨機對照實驗這種方法包含了兩個非常關鍵的概念,即控制和隨機化。控制通常涉及研究人員有目的的設定一些變數的替代值的能力,然後比較這些替代設計的效果。控制是“實驗”這個概念的核心,並且有相當長的歷史。最早可以追溯到John Stuart Mill(1843)或許還可以追溯到更早一個世紀的時間(Boring, 1954)。通過在實驗中控制變數的方法,研究人員既可以通過保持變數不變來遮蔽掉變數的效果,又可以通過系統的改變變數值來得到變數改變的效果。但是,要做到這樣研究人員就必須知道特定變數的存在情況並且能夠改變和控制它們的值。

因果關係分析方法簡介

圖1: 藥效評價的隨機對照實驗

隨機化涉及實驗組隨機分配物件的方法(例如隨機分配醫學實驗中的病人),這樣研究人員就無法控制實驗物件的特徵也不能系統的影響被研究的變數。如果實施了隨機化,這些不被控制的特徵的影響就會被均勻的分攤到足夠大的組內。19世紀20年代R.A.Fisher就概括了隨機化的原則和它在實驗設計中的應用(Fisher, 1925),自此隨機化也成為了實驗設計的重要內容。隨機化的特別之處在於它能移除那些對研究者們來說透明變數的影響。例如圖1所示,只要把病人隨機地分配到實驗組中研究者就不需要知道哪個具體的遺傳因素可能會影響病人對某種特定藥物的反應。研究實驗環境現象的學者一般都會控制他們能夠系統改變的變數或者能保持不變的變數並且對其它的大多數甚至全部變數進行隨機化。通過這兩種方法,就能夠研究能被直接操控的變數的效果並且遮蔽掉幾乎全部的其它潛在原因。

近幾年,使用這種隨機對照實驗的方法,有大量的學者在社會媒體上做了大量有意義的研究和探索。Centola等人邀請1540名志願者並隨機地將他們一對一的分配到小世界特徵的隨機網路和高聚類的規則網路中的,並觀察研究兩種不同網路下行為的傳播規律來確定社會網路結構對與行為蔓延的因果作用(Centola, 2010)。基於相同的原理,Centola又基於性別、年齡及身體質量指數等特徵,隨機化地把線上社會網路中的使用者分成兩組,並讓一組人員相互之間能發揮同質性作用,另一組完全沒法發揮同質性作用,然後通過分析使用者的健康飲食日誌在網路中傳播的情況分析人口組成的同質性對健康行為傳播和革新採納的因果作用(Centola, 2011)。Lewis等人也通過這種隨機對照實驗的方法研究線上社會網路上導致同質性的原因到底是社會選擇還是社會影響(Lewis et al., 2012)。Aral等人把Facebook上的140萬朋友關係作為研究物件,使用隨機對照實驗的方法研究這些朋友關係所實施的同伴影響對同伴在某些產品使用上的因果作用(Aral and Walker, 2011),並且於2013年使用隨機對照實驗的方法研究社會媒體上的已有的使用者投票結果對於後來者給出好評或壞評的因果作用(Muchnik et al., 2013)。

3 準實驗設計

準實驗設計是社會科學領域中經常使用的因果推斷方法,一般簡稱為QEDs(Thyer, 2012)。這種方法試圖利用能部分模擬對照實驗環境的觀測資料集來做因果識別[29, 30]。雖然QEDs無法總能具有像隨機對照實驗那樣的內部合理性,但是QEDs卻增加了可分析資料的廣度,尤其是對那些無法進行隨機對照實驗的情形問題中的因果推斷,因此彌補了隨機對照實驗的某些不足, 它們之間的關係如圖2所示。

因果關係分析方法簡介

圖2: 準實驗設計與隨機對照實驗的關係

在沒有明確的控制和隨機化的情形下,有些QEDs使用匹配的方法來確定對比資料例項對,以保證除了研究目標變數外的其它變數儘可能的相似,即非等值組設計。還有一些其它的QEDs研究相同資料例項上給定變數在特定事件前後隨時間的變化,即斷點回歸方法。還有一些其它型別的QEDs,包括proxy pretest design(Cook et al., 1979)、double pretest design(Shadish et al., 2002)、nonequivalent dependent variables design[29]、pattern matching design(Knuth et al., 1977)和regression point displacement design(Linden et al., 2006)。

準實驗設計有一定的優越性。首先,它在因果推斷內部合理性方面超越統計控制方法,因為它可以控制全部變數,即使這些變數沒有被識別、度量和建模。其次,它在外部合理性上超越隨機對照實驗。因為準實驗設計使用的是真實系統中的資料而不是人造實驗環境下產生的資料。隨機控制實驗在因果推斷上的有效性需要很高的代價,因此隨機對照實驗有很高的內部有效性,但是需要犧牲外部有效性(即泛化到真實世界)。相反,準實驗的方法具有很高的外部有效性。第三,QEDs不需要額外地收集資料反而可以把它們用於現有的資料集並推斷出很強的因果結論。最後,QEDs不排斥其它的因果推斷方法,它可以很好的輔助統計控制方法和隨機實驗方法。當然QEDs也有一些侷限性,比如:人工的QEDs只能用於有限的因果推斷情形,例如雙胞胎研究;由於QEDs只使用資料的子集來推斷因果依賴,因此對與資料子集的代表性就要求很高。

準實驗設計方法上非常著名的例子是雙胞胎比較研究。這個研究已經延續了數十年了,其目的是探索某些疾病和情況的原因。比較同卵雙胞胎集合和異卵雙胞胎集合在某種疾病上的發病率。同卵雙胞胎有相同的基因、共同的胎兒期環境和幾乎相同的成長環境。異卵雙胞胎也有相同的胎兒期環境和幾乎相同的成長環境,但他們基因卻不是完全相同而只是相似。這種典型的相似背景以及這兩種型別的雙胞胎在相似背景下又有特定的不同,為研究遺傳因素在疾病上的作用提供了接近理想的環境。例如,為了識別某些已知的情況是由於遺傳因素導致的,研究人員就可以在每種型別的成對雙胞胎上確定相關性並且比較兩種型別的相關性。如果差異大說明這個特定情況很大部分是由於遺傳因素,反之如果沒什麼不同則說明這種情況是由於其他因素。

但是在傳統的QEDs中所有的步驟都是人工分析。這種方式耗時耗力,每次QEDs都要重複一遍所有的步驟。為了解決人工QEDs效率低下的缺陷,Jensen等人提出了關係型資料上自動識別QEDs的方法AIQ(自動準實驗識別)(Jensen et al., 2008; Jensen, 2007)。Oktay等人使用這種自動的QEDs識別框架分析社會媒體上的因果分析否定了人們對於問答社群中的認識“高質量答案的出現會導致使用者繼續貢獻答案的積極性下降”(Oktay et al., 2010)。


4 圖模型

對於因果推斷的圖模型方法研究是因果推斷領域最活躍的研究方向之一。圖模型的優越性在於直觀,並且很容易的就可以把因果推斷和概率獨立性理論聯絡起來。除了少部分的學者研究線性有環模型上的因果推斷(Hyttinen et al., 2012; Scheines et al., 2010; Hyttinen et al., 2010),大部分圖模型上的因果推斷研究都是基於DAG(有向無環圖)的。對於DAG,一般有兩種觀點認識它:一種是將DAG看成是表示條件獨立性的模型;另一種觀點則是將其看成是表示資料生成機制的模型。而因果推斷中常常使用的DAG是將其看成資料生成機制的模型,一般稱其為貝葉斯網路或貝氏網路。貝葉斯網路中的節點代表隨機變數,節點間的邊代表變數之間的直接依賴關係(也可以看成因果關係),每個節點都附有一個概率分佈,根節點$X$所附的是它的邊緣概率分佈P(X),而非根節點X所附的的是條件概率分佈P(X|π(X))。

貝葉斯網路可以從定性和定量兩個層面來理解。在定性層面,它用一個DAG描述了變數之間的依賴和獨立關係。在定量層面,它用條件概率分佈刻畫了變數對其父節點的依賴關係。在語義上,貝葉斯網路是聯合概率分佈的分解的一種表示。它表徵多個隨機變數的聯合生成的概率分佈(張連文 and 郭海鵬, 2006)。更具體地,假設網路中的變數為X1,...,Xi,那麼把各個變數所附有的概率分佈想成就得到聯合概率分佈,即

因果關係分析方法簡介

其中,π(Xi)表示變數Xi在貝葉斯網路中的直接父節點。

貝葉斯網路的構造方式有兩種,一種是專家手工構建,另一種是通過資料分析來獲得。前者存在很大的缺陷,首先,人工構建貝葉斯網路需要對這個貝葉斯網路所代表的問題本身有深刻的理解;其次,人工構建往往會遺漏掉一些變數。既然貝葉斯網路是描述資料生成機制的模型,那就假設所有存在因果關係的觀測資料都是基於一個貝葉斯網路的。那麼如何從觀測資料中學習出這個貝葉斯網路就成了一個非常重要的課題,即如何通過分析觀測資料獲得貝葉斯網路的結構和引數,其中引數一般指貝葉斯網路中非根節點的條件概率表。然而貝葉斯網路中的因果結構學習比貝葉斯網路結構學習要求更嚴格,因為表徵因果結構的貝葉斯網路中每一條邊都表徵的是因果關係。大多數因果結構學習演算法都有一個強假設:對所有變數A、B間的因果推斷,可以觀測所有潛在直接或間接的共同原因,既不存在圖10所描述的情況。如此因果圖G(V,E)上a∈ V,b∈ V間的結構學習就變成了基於D-分割理論的獨立性檢驗問題:p(a,b|c∈ V - {a,b})是否等於p(a|c)p(b|c)。

因果關係分析方法簡介

圖3: D-分割的三種情況

D-分割理論是貝葉斯網路的基礎。它是一種用來判斷變數是否條件獨立的圖形化方法。對於一個DAG,D-分割方法可以很快的判斷出兩個變數是否是條件獨立的。D-分割一共有三種情況,第一種情況是一個節點連線另外兩個節點的箭頭尾部,如圖3(A)所示。根據公式(1)和圖3(A)可知如果c是可觀測的變數則a和b是給定c條件獨立的。如果c不作為觀察變數則a和b不是給定c條件獨立的。第二種情況是一個節點分別連線另外兩個節點的頭部和尾部,如圖3(B)所示。由圖可知如果c是可觀測變數則可得a和b是給定c條件獨立的。如果c不是可觀測變數則可得a和b不是給定c條件獨立的。第三種情況是有兩個節點都共同的指向第三個節點,如圖3(C)所示。如果c作為觀測變數則a和b不是給定c條件獨立的。如果c不作為觀察變數則可得a與b是獨立的。

因果關係分析方法簡介

圖4: do操作和condition

根據上述的D-分割理論,Judea Pearl提出了do運算元的概念(Pearl, 1995)。do的意思可以理解成“干預”。沒有“干預”的概念,很多時候沒有辦法談因果關係。在DAG中do(Xi) = x’i表示如下操作:將DAG中指向Xi的所有的有向邊全部切斷,且將Xi的取值固定為常數xi。如此得到新的DAG的聯合分佈可以記為p(x1,…,xn|do(Xi)= x’i)可以證明干預後的聯合分佈為:

因果關係分析方法簡介

請注意 p(·|do(Xi) = x’i))和p(·|Xi = x’i))在很多情況下是不同的。如圖 4(1)中所示

p(B=b|A=a)=p(B=b|do(A) = a)。因為A是B的“原因”,“條件”和“干預”A對應的B的分佈相同。但在圖 4(2)中有p(B=b|A=a)=p(B=b|do(A) = a),由於A是B的“結果”,“條件”,“結果”,“原因”的分佈不再等於它的邊緣分佈,但人為的“干預”結果A並不影響原因B的分佈。

5 虛擬事實模型

1974年哈佛大學統計系的Rubin提出了一種因果作用模型(Rubin, 1974),此模型與Lewis的虛擬事實理論(Counterfactual)(Lewis, 2013)在理論上相似,所以統稱為虛擬事實模型。該模型的核心就是引入了一個叫做“虛擬結果”的結果。比如,我們能同時觀測到同一個個體在接受“處理”和未接受處理的兩個“結果”的話,我們就可以使用這兩個“結果”的差異來評價“處理”對這個個體的因果作用。但是,在一般情況下這個個體在接受處理和不接受處理兩種情況中只能選擇一個,要麼接受“處理”,要麼不接受“處理”。例如,我們假設一家醫療單位要測試一種新藥對於一種疾病的療效。如果試吃藥物的物件在吃完藥後還能再回到和吃藥前一模一樣的狀態。那麼我們就可以設定這樣的實驗:讓試藥者試吃藥物一段時間T後記錄結果R1,然後讓試藥者回到吃藥前的狀態不做任何治療,時間T後記錄結果R2。那麼分析R1與R2的差別,就是這種新藥對於這種疾病在這個實驗物件上的因果作用。顯然,這種假設是不合理也是無法實現的,所以那個無法觀測到結果就叫做虛擬結果。基於虛擬事實模型進行觀察性研究的因果推斷時需要一些假定,而這些假定是無法用觀測資料進行檢驗的。雖然虛擬事實模型的理論很完備,但是由於這些假設使得它的實用性上存在缺陷。虛擬事實模型的理論形式如下所述。

假設Zi表示個體i接受處理與否,處理取1,對照取0;Yi表示個體i的結果變數。另外記Yi(1),Yi(0)表示個體i接受處理或者對照的虛擬結果(potential outcome),那麼Yi(1)-Yi(0)表示個體i接受治療的個體因果作用。不幸的是每個個體要麼接受處理,要麼接受對照Yi(1),Yi(0)中必然缺失一半,個體的因果作用是不可識別的。觀測的結果是Yi=ZiYi(1)+(1-Zi)Yi(0), Zi的取值要麼是0要麼是1。但是,在Z做隨機化的前提下,我們可以識別總體的平均因果作用(ACE):

因果關係分析方法簡介

這是因為

因果關係分析方法簡介

最後一個等式表明ACE可以由觀測的資料估計出來。其中第一個等式用到了期望運算元的線性性質;第二個式子用到了隨機化,即Z ⊥ {Y (0), Y (1)},其中⊥表示獨立性。由此可見,隨機化試驗對於平均因果作用的識別起著至關重要的作用。

6 總結與展望

諸如物理學、行為學、社會學、醫學與生命科學領域中許多研究的中心問題是對因果的闡述,即變數或事件之間直接作用關係的闡述。本文主要簡單介紹了四類因果分析的方法。隨著電腦科學的發展,資料儲存問題的解決,各學科大資料的興起,面向預測的關聯性分析已經不能滿足我們的需求。但是仍舊沒有適用於大資料上的高效的因果分析方法、模型。如何在各領域大資料上利用因果分析模型方法來獲取可信的因果知識近年來並沒有什麼突破性的進展,仍然是一個開放問題。

References

[1] 張連文 and 郭海鵬. 2006. 貝葉斯網路引論.

[2] Sinan Aral and Dylan Walker. 2011. Identifying social influence in networks using randomized experiments. IEEE Intelligent Systems, 26(5):91–96.

[3] Edwin G Boring. 1954. The nature and history of experimental control. The American journal of psychology, 67(4):573–589.

[4] Donald T Campbell and Julian C Stanley. 2015. Experimental and quasi-experimental designs for research. Ravenio Books.

[5] Damon Centola. 2010. The spread of behavior in an online social network experiment. science, 329(5996):1194– 1197.

[6] Damon Centola. 2011. An experimental study of homophily in the adoption of health behavior. Science, 334(6060):1269–1272.

[7] Thomas D Cook, Donald Thomas Campbell, and Arles Day. 1979. Quasi-experimentation: Design & analysis issues for field settings, volume 351. Houghton Mifflin Boston.

[8] Ronald Aylmer Fisher. 1925. Statistical methods for research workers. Genesis Publishing Pvt Ltd.

[9] Arthur Gretton, Karsten M Borgwardt, Malte J Rasch, Bernhard Scho ̈lkopf, and Alexander Smola. 2012. A kernel two-sample test. Journal of Machine Learning Research, 13(Mar):723–773.

[10] Antti Hyttinen, Frederick Eberhardt, and Patrik O Hoyer. 2010. Causal discovery for linear cyclic models with latent variables. on Probabilistic Graphical Models, page 153.

[11] Antti Hyttinen, Frederick Eberhardt, and Patrik O Hoyer. 2012. Learning linear cyclic causal models with latent variables. Journal of Machine Learning Research, 13(Nov):3387–3439.

[12] David D Jensen, Andrew S Fast, Brian J Taylor, and Marc E Maier. 2008. Automatic identification of quasi- experimental designs for discovering causal knowledge. In Proceedings of the 14th ACM SIGKDD interna- tional conference on Knowledge discovery and data mining, pages 372–380. ACM.

[13] David D Jensen. 2007. Beyond prediction: Directions for probabilistic and relational learning. In International Conference on Inductive Logic Programming, pages 4–21. Springer.

[14] Donald E Knuth, James H Morris, Jr, and Vaughan R Pratt. 1977. Fast pattern matching in strings. SIAM journal on computing, 6(2):323–350.

[15] Kevin Lewis, Marco Gonzalez, and Jason Kaufman. 2012. Social selection and peer influence in an online social network. Proceedings of the National Academy of Sciences, 109(1):68–72.

[16] David Lewis. 2013. Counterfactuals. John Wiley & Sons. Ariel Linden, William MK Trochim, and John L Adams. 2006. Evaluating program effectiveness using the regression point displacement design. Evaluation & the Health Professions, 29(4):407–423.

[17] Lev Muchnik, Sinan Aral, and Sean J Taylor. 2013. Social influence bias: A randomized experiment. Science, 341(6146):647–651.

[18] Hu ̈seyin Oktay, Brian J Taylor, and David D Jensen. 2010. Causal discovery in social media using quasi- experimental designs. In Proceedings of the First Workshop on Social Media Analytics, pages 1–9. ACM.

[19] Judea Pearl. 1995. Causal diagrams for empirical research. Biometrika, 82(4):669–688.

[20] Donald B Rubin. 1974. Estimating causal effects of treatments in randomized and nonrandomized studies. Journal of educational Psychology, 66(5):688.

[21] Richard Scheines, Frederick Eberhardt, and Patrik O Hoyer. 2010. Combining experiments to discover linear cyclic models with latent variables.

[22] William R Shadish, Thomas D Cook, and Donald T Campbell. 2002. Experimental and quasi-experimental designs for generalized causal inference. Houghton, Mifflin and Company.

[23] Bharath K Sriperumbudur, Arthur Gretton, Kenji Fukumizu, Bernhard Scho ̈lkopf, and Gert RG Lanckriet. 2010. Hilbert space embeddings and metrics on probability measures. Journal of Machine Learning Research, 11(Apr):1517–1561.

[24] Ga ́bor J Sze ́kely, Maria L Rizzo, et al. 2009. Brownian distance covariance. The annals of applied statistics, 3(4):1236–1265.

[25] Bruce A Thyer. 2012. Quasi-experimental research designs. Oxford University Press.

[26] Kun Zhang, Jonas Peters, Dominik Janzing, and Bernhard Scho ̈lkopf. 2012. Kernel-based conditional indepen- dence test and application in causal discovery. Proc. of the UAI 2011.


本文來源於哈工大SCIR

原文連結點選即可跳轉

因果關係分析方法簡介

相關文章