作者 | Mr Bear
編輯 | 青暮
近年來,因果推理在人工智慧研究社群中的熱度逐漸提升,許多深度學習領域的頂級科學家也多次指出:因果推理在機器學習中會起到關鍵性的作用。
因此,近期很多研究方向的工作都或多或少地與因果推理有所結合。在11月27日由智源舉辦的 NeurIPS 2020中國預講會上,來自清華大學電腦科學與技術系的崔鵬副教授發表了主題為「穩定學習:發掘因果推理和機器學習的共同基礎」的演講,崔老師表示,「我們將站在機器學習的角度,探討如何看待因果推理。」
崔鵬是清華大學長聘副教授,於2010年獲得清華大學博士學位,研究興趣包括大資料環境下的因果推理與穩定預測、網路表徵學習,及其在金融科技、智慧醫療及社交網路等場景中的應用。他在資料探勘和多媒體領域的著名會議和期刊上發表了100多篇論文,並先後獲得7項國際會議及期刊最佳論文獎。他於2015年獲得ACM中國新星獎,並於2018年獲得CCF-IEEE CS青年科學家獎,目前是CCF的傑出會員以及IEEE的高階會員。
實際上,「因果」的概念在哲學領域已經經歷了數百年的發展。上世紀二十年代,「因果」的概念在統計領域出現,也具有相當長的發展歷史。至今,「因果」已經成為了一個獨立、成熟的研究方向,越來越多機器學習領域的研究者試圖透過引入因果的相關概念來解決機器學習中的一些基礎問題。
在本次演講中,崔老師結合其研究組近年來的相關研究工作,針對如何「將因果與機器學習相結合」這一問題進行了分享。
自 2016 年起,崔老師的團隊開始深入研究如何將因果推理與機器學習相結合,並最終形成了「穩定學習」(stable learning)的研究方向。從宏觀的角度來看,穩定學習旨在尋找因果推理與機器學習之間的共同基礎,從而應對一系列有待解決的問題。
在演講中,崔老師首先介紹了當下人工智慧存在的風險,即不可解釋性和不穩定性,並指出,關聯統計是導致這些風險的重要原因。而結合因果推斷的機器學習可以克服這兩個缺陷,實現穩定學習。值得一提的是,從因果角度出發,可解釋性和穩定性之間存在一定的內在關係,即透過最佳化模型的穩定性亦可提升其可解釋性。
然後,崔老師介紹瞭如何透過「混淆變數平衡」的思想實現穩定學習,並指出其具有理論保障。實驗結果也表明:「訓練和測試時環境差異越大,採用因果方法相對於關聯方法取得的效能提升也就越大」,從而展現了因果推斷對於降低機器學習風險、克服關聯統計缺陷的優勢,以及引領機器學習下一個發展方向的潛力。
以下是演講全文,AI科技評論進行了不改變原意的整理,文章已經過崔老師修改及確認。
1 研究背景
如今,人工智慧技術的應用研究進入了「深水區」,暴露出現有的機器學習方法存在的許多風險和短板。
近年來,網際網路為人工智慧技術提供了主要的發展「土壤」,催生了許多面向網際網路場景的人工智慧應用。然而,對於這些技術而言,其技術性風險並不大。
例如,如果搜尋引擎或者推薦系統犯了錯,並不會招致非常嚴重的後果。在這樣的背景之下,人工智慧從業者往往採用了「效能驅動」(performance driven)的方式來最佳化這些人工智慧技術,即我們重點關注該技術在完成目標任務時直觀體現出的效能,而並不太關注該技術發生錯誤時的風險。
然而,在當今人工智慧技術應用的大趨勢下,越來越多的人工智慧應用並不僅僅侷限於網際網路場景,它們逐漸被用於與人類的生產生活息息相關的一些領域(如醫療健康、法律、交通運輸、金融科技),這些領域往往是風險敏感(risk sensitive)的,即人工智慧技術產生的錯誤會招致較大的系統性風險。例如,在醫療健康領域中,此類技術會關係到人的生命安全;而在司法領域,此類技術則關係到社會公平與正義。
因此,我們正面臨著人工智慧技術從「效能驅動」到「風險敏感」的過渡期,需要更多地關注技術性風險,使人工智慧技術可以在高風險的領域中得以廣泛而深入的應用。
2 人工智慧技術存在的風險
在討論現有人工智慧技術所面臨的風險時,我們首先需要關注模型的可解釋性問題。如今的深度學習模型大多都是黑盒模型。例如,給定一張醫學 CT 影像,我們的演算法可以以一定的準確率判斷患者患有何種疾病,但是卻很難透過某種指標給出人類可以理解的、做出該判斷的依據,類似的人類無法理解機器學習系統輸出的情況還有很多。
實際上,對於醫療、軍事、金融等風險敏感性的應用領域,我們可以預見:「人在迴路中」(human-in-the-loop)將是人工智慧技術未來被廣泛使用的一種模式。
這是因為,對於這些決策存在較高風險的任務而言,當人工智慧系統面臨的場景十分複雜時,系統很難達到絕對的高精度,並說服人類無條件地信任模型的預測、決策結果。
而要想實現「人在迴路中」的模式,首先需要存在人和機器都能夠理解的「共同語言」,否則人和機器就無法協作。因此,人工智慧技術的可解釋性問題嚴重製約著「人在迴路中」的模式,極大地限制了人工智慧演算法在高風險領域應用的可能性。
此外,統計機器學習等機器學習方法都是建立在資料的獨立同分布假設上,我們要求從同一個分佈中隨機抽樣得到訓練資料和測試資料,即訓練資料和測試資料的機率分佈相同。當滿足獨立同分布假設時,我們可以證明,從理論上說,許多現有的機器學習模型的效能是有所保障的。
然而,在真實場景下,獨立同分布假設過於理想,我們實際上並不能保證訓練資料和測試資料一定符合某種分佈。在開發學習模組的過程中,我們會使用某種訓練資料,但是當我們將開發好的模組應用到各種實際場景下時,實際輸入資料的分佈可能相較於訓練資料存在系統性的偏移。
由於現在大多數的機器學習模型都是基於獨立同分布假設開發的,當測試資料分佈與訓練資料分佈有系統性偏移時,模型的效能可能降至非常低的水平。舉例而言,近年來有許多研究者從事對抗性攻擊的研究,當測試資料由對抗性樣本組成時,模型的效能甚至可以降至 0。因此,我們需要考慮機器學習模型的穩定性問題,當模型被應用於不同場景下時,我們需要保證模型具有穩定的效能。
示例 1:影像分類
以影像分類為例,儘管當前的模型在我們設計好的理想的環境下取得了很好的效能,但是在更加真實的設定下,該問題還遠未得以理想解決。
假設我們需要訓練一個狗的分類器,此時由包含狗的圖片組成的訓練資料的分佈可能存在一些偏差(bias)。比如在大部分圖片中,狗位於草地上,而在另一些數量較少的圖片中,狗則處於水泥地上。
在使用符合這種資料分佈的訓練資料訓練好模型後,我們對模型進行測試。如果測試樣例為「草地上的狗」時,模型的準確率可能非常高;當測試樣例為「沙灘上的狗」時,模型的準確率可能會降至 70% 到 80%;而當測試樣例為「水中的狗」時,模型可能會完全失效。
這是因為,「水中的狗」的特徵分佈相較於訓練資料(草地上的狗)是一種非常極端的情況,模型對於這種新的測試樣本基本沒有判別能力。可見,對於上述簡單的圖片分類問題,當模型面臨現實中比較具有挑戰性的環境時,仍然不能被很好地解決。
示例 2:癌症存活率預測
當我們需要基於醫療資料構建一個癌症存活率預測模型(即預測癌症病人可以繼續存活的時間)時,也可能存在學習模型不夠穩定的問題。
舉例而言,假設我們使用的大部分訓練資料來自於城市醫院等盈利性醫院。在對病人建模時,我們會提取其身體狀況、治療方案、收入水平等指標。此時,「收入水平」這項特徵的預測能力也許會很強。這可能是因為在盈利性醫院中,病人收入水平越高,就可以出更高的價錢買到更好的藥,找到更好的醫生,得到更好的治療方案,存活率也就可能高一些。當我們使用從城市醫院收集到的資料訓練好預測模型後,如果將該模型應用到城市醫院的癌症存活率預測任務中,由於訓練資料和測試資料機率分佈基本一致,所以模型的效能會很高。
然而,如果我們將上述模型應用到大學醫學院附屬的醫院中,就可能會存在非常大的預測性偏差。這是因為,「收入水平」對於在醫學院中的癌症存活率預測任務來說,是一個較弱的預測性因子,甚至會對預測起到較大的干擾作用。通常而言,在醫學院的醫院中,病人用的藥和接受的治療方案可能並不依賴於其支付的費用,而依賴於醫學院本身的研究目的。因此,在不同的場景下,這種癌症存活率預測模型的可靠性實際上較差。
3 機器學習模型面臨的困境
就當下的人工智慧技術而言,由於缺乏可解釋性,所以模型的使用者無法理解模型做出預測和決策結果的原因;另一方面,如果模型並不能在各種場景下維持足夠穩定的高效能,我們也無法充分信任這些模型。
目前,我們面臨著人工智慧模型的「可解釋性」和「穩定性」都不能得以充分保證的窘境。實際上,如果我們能夠保證模型具有足夠穩定的高效能,對模型「可解釋性」的要求在某種程度上也可以適當降低。
以汽車駕駛為例,並不是所有人都明白汽車的工作原理,但是由於汽車技術在各個層面上都足夠可靠,我們仍然可以安心駕駛汽車。
那麼,導致當前的人工智慧技術面臨這種困境的原因是什麼呢?在崔老師看來,當前的大多數機器學習模型都是以「關聯統計」為基礎的,這也許是造成這種困境的原因之一。
實際上,關聯統計手段在某些情況下會存在一些弊端,可靠性無法得以保證。
首先,關聯性本身是不可解釋的。如圖 9 所示,直觀地看,紅色的曲線與黑色曲線應該高度相關。然而,紅色的曲線實際上表示漁船上落水人員的溺死率,而黑色曲線則表示肯塔基州的結婚率。顯然,儘管紅黑兩條曲線相關程度很高,這兩份資料其實並沒有太大的關係,這種曲線的相關性無法得到解釋。
當我們把問題推廣到大資料環境下任意的兩個趨勢性變數時,這兩個變數可能並不存在任何物理意義上的關係,但是由於變數 A 和 B 同時為增大趨勢或同時為減小趨勢,基於關聯統計的模型就會認為這兩個變數正相關;同理,當 A 和 B 的變化趨勢相反時,基於關聯的模型則會認為這兩個變數負相關。然而,我們無法解釋這兩種趨勢變數的關聯性。
因此,對於基於關聯統計構造的模型而言,由於我們本身就無法保證關聯性的可解釋性,所以也就無法從根本上保證模型的可解釋性。
另一方面,關聯性本身也是不穩定的。如前文所述,關聯性的存在與資料分佈有很大的關係。如圖 10 所示,在訓練關於狗的圖片分類器時,由於訓練資料中包含大量「草地上的狗」,草地和狗的標籤之間會形成強相關的關係。當我們在測試時向模型輸入「沙灘上的狗」時,圖片背景中沒有草地,然而模型在訓練時會學習到草地和狗之間的強相關性,它會認為背景中沒有草地的圖片中出現狗的機率也會很小,此時分類模型的置信度也會有所降低。
可見,當我們在測試中切換到與訓練資料不同的分佈時,關聯性是不穩定的。因此,許多研究者將目光投向了「因果性」。
例如,狗的特徵空間中,紅色的邊界框包含一些訓練資料中的相關特徵,而黃色的邊界框中的特徵也與狗的標籤高度相關。然而,這兩種與標籤高度相關的邊界框中的特徵的性質是不同的,黃色邊界框中狗的身體上的特徵是「因果特徵」。對於人類而言,正是因為人類看到了黃色框中的標籤才為圖片賦予了狗的標籤。
當我們依賴「因果特徵」進行預測時,即使我們在測試中更換到與訓練資料不同的分佈,這種因果結構很可能可以保證模型的穩定性,進行更穩定的預測。
4 使用關聯性的正確方式
然而,機器學習領域目前暴露出來的問題並不完全是由於「關聯性」本身所帶來的,它們在更大的程度上是由於我們使用「關聯性」的方式造成的。實際上,「關聯性」的產生機制有以下三種:
-
因果:由於 T 導致了 Y,所以 T 和 Y 有所關聯(例如,夏天導致冰淇淋銷量上升,則夏天與冰淇淋銷量之間存在關聯),這種因果機制是穩定且可解釋的。
-
混淆:當 X 會導致 T 和 Y 時,T 和 Y 之間就會產生關聯(例如,年齡增長可能會導致人傾向於抽菸,而年齡增長可能也會導致人的體重上升,則抽菸和體重上升之間可能會形成關聯)。此時 X 的混淆導致 T 和 Y 產生了關聯,這種關聯實際上是一種虛假的關聯,它不可解釋也不穩定。
-
樣本選擇偏差:如果變數 S 的取值是由T和Y的取值所共同決定,透過控制 S 可以使 T 和 Y 產生關聯。在如圖 10 所示的例子中,由於存在樣本選擇偏差(在大多數圖片中,狗都在草地上),會使得狗和草地之間會產生關聯。從本質上說,這種關聯也是虛假關聯,是不穩定且不可解釋的。
由此可見,在上述三種產生關聯的方式中,只有「因果」才是穩定且可解釋的,另外兩種產生關聯的方式都會導致虛假關聯。
然而,在我們現在設計機器學習模型的過程中,我們並沒有試圖區分不同的關聯方式。在這種對資料中關聯性較為盲目的建模過程中,會產生大量由於「混淆」和「樣本選擇偏差」導致的虛假關聯,從而導致了模型的不可解釋和不穩定。因此,我們需要為設計機器學習框架尋找一種新的統計基礎。
5 因果與機器學習的結合
實際上,人們很難在定義「因果」的問題上達成共識。從哲學的視角上看,「如何定義因果」、「因果是否存在」都是具有爭議的問題。但是從機器學習研究者的角度來說,我們更加關注是否存在一種更好的統計的方式,能夠發現資料之間存在的更本質的關聯。在此,我們將為「因果」給出一個實用性的定義。
在如圖 12 所示的三角形框架中,為了探究 T 是否會導致 Y,我們首先控制住除變數 T 之外所有其它的變數 X。在控制 X 不變的條件下,我們對 T 施加一定的影響,如果 Y 會隨著 T 的變化而變化,我們則稱 T 對 Y 有因果效應。我們將因果效應的大小定義為:對 T 施加單位擾動時,Y 發生變化的程度。以上就是從干預的角度出發,對因果的一種解釋。
將因果的概念引入機器學習領域,會帶來一系列好處。在上文中提到的對狗的影像進行分類的例子中,「草」和狗的標籤、「狗的鼻子」和狗的標籤之間都存在強關聯,從關聯的層面上說二者區別不大。
然而,從因果的層面上來看,假設 T 代表「草」、Y 代表狗的標籤。給定兩組資料,在其它特徵(例如,狗的鼻子)都相同的情況下,一組資料中有草地,另一組資料中沒有草地。我們會發現,這兩組資料中狗的標籤的百分比分佈並沒有顯著差別。這是因為只要圖片中出現了狗的鼻子,無論出現草地與否,都會包含狗。
在這種情況下,我們會發現「草」對標籤 Y 實際上並沒有因果效應。相對應地,如果令 T 代表「狗的鼻子」,在兩組資料中都出現草地的情況下,一組包含狗的鼻子,另一組不包含狗的鼻子,則兩組資料中 Y 的百分比分佈肯定會存在差異。
因此,透過度量,我們發現「狗的鼻子」對狗的標籤有因果效應。在因果的框架下進行度量時,「草」對於狗的標籤存在非常弱的因果關係,而「狗的鼻子」和狗的標籤存在非常強的因果關係。
可見,如果我們在學習問題中依賴「因果」進行預測,模型的可解釋性和穩定性都會得到提升。在此基礎之上,崔老師的團隊提出了「穩定學習」的概念。
6 穩定學習
假設我們利用符合分佈 1 的訓練資料訓練機器學習模型,如果我們在測試階段使用的是同樣符合「分佈 1」的資料,那麼這種情況就是滿足獨立同分布假設的學習問題。
此外,當我們在測試時使用的是與「分佈 1」不同的「分佈 n」的資料,我們就需要透過遷移學習技術針對「分佈 n」對模型進行最佳化。
然而,儘管遷移學習技術可以在一定程度上解決這種特徵分佈偏移的問題,但它所面臨的場景仍然不是最普適性的情況。這是因為,在遷移學習框架下,儘管並不要求測試資料和訓練資料的分佈必須一致,但是我們需要知道測試資料的分佈才能進行進一步的域適應。不幸的是,在實際情況下,我們往往無法控制測試資料如何產生。
因此,我們希望在將模型應用到不同的資料分佈下的時候,針對準確率的方差進行最佳化,使準確率的波動可控或者為一個極小的量。同時,另一個需要最佳化的目標是模型的平均效能。如果我們能夠保證模型在不同環境下具有可靠的模型效能,並且能夠最佳化效能波動的方差,那麼就可以實現「穩定學習」。
我們將基於因果推理中的「混淆變數平衡」的思想來實現穩定學習。在因果推理領域中,如果我們想要根據可觀測的資料估計 T 對 Y 的因果效應,首先要控制其餘的所有變數 X 不變。然而實際上,當我們將資料劃分為 T=0 和 T=1 的兩組後,並不能保證兩組資料中變數 X 的分佈保持一致。
因此,我們往往會透過使用「直接混淆變數平衡」(directly confounder balancing),即對試驗組和對照組兩組資料的樣本進行加權,使得這兩組資料加權後的 X 分佈一致,此時這種設定就可以滿足上文中對因果效應的定義。實際上,這種操作是透過樣本加權的方式使得 T 和 X 相互獨立。當 T 和 X 獨立之後,度量 T 與 Y 之間的關聯性等價於計算 T 與 Y 之間的因果效應。
當我們試圖將上述思想推廣到機器學習領域中時,一個重要的差異是:在因果領域中,我們度量的是單個變數對輸出變數的因果效應,而在機器學習領域中我們需要使用所有的輸入變數預測輸出變數。
因此,穩定學習旨在將上述思想推廣到全域性的層面上,試圖學習一組樣本權重,透過樣本加權的方式使所有的輸入變數之間都相互獨立,從而可以利用現有的基於關聯的模型實現基於因果的預測。
7
理論保障:Stable Prediction across Unknown Environments
崔老師在 KDD 2018 上發表的論文「Stable Prediction across Unknown Environments」中,從理論上證明了存在這樣的一組權重:即當樣本量足夠大時,我們可以學習到一組樣本權重,使任意的一個干預變數(treatment)都可以與其餘所有變數相獨立。
在這篇論文中,崔老師團隊的證明是以無限的樣本規模為條件的,但在實際應用中,我們無法保證訓練樣本量無窮大。因此,我們需要在在有限樣本的條件下進行一定的最佳化或近似。
我們引入樣本權重W,設計這樣一個正則項:對於輸入樣本的某一維特徵,將其作為干預變數T,然後將其餘的特徵作為需要控制的 X,計算加權後實驗組和對照組的樣本矩的差的二範數,這一值越小,表明試驗組和對照組越平衡;對於輸入樣本的每一維特徵都重複這一過程,將算出的各個二範數加起來,就得到我們所需要的正則項。
在學到樣本權重 W 後,我們可以透過一種很自然的方式,在不對現有模型(迴歸模型、深度學習模型等等)進行較大修改的前提條件下,使用原本基於關聯的模型就可以傾向於產生包含因果關係的結果。
具體而言,在上面的最佳化目標中,我們在 Logistic 的損失中加入了樣本權重 W,並額外增加了上面提到的正則項,然後我們迭代最佳化樣本權重W和迴歸係數β。在最優情況下,干預變數和混淆變數獨立,我們估計出的迴歸係數就暗示了變數 x_i 對輸出的因果貢獻。
實驗驗證
崔老師團隊在各種任務設定下對上述方法進行了驗證。在影像分類任務中,團隊釋出了一個新的資料集「NICO」,它與 ImageNet 最大的區別是:NICO 資料集中的每張影像除了帶有類別標註之外,還具有環境標註(例如,在沙灘上、在家中、在草地上等等),每一種環境可能對應數百張影像。
我們希望用包含其中一些環境的資料來訓練模型,再用包含其它環境的資料測試模型,即測試模型時使用的環境在訓練資料中並不存在,從而評價模型是否能在不同環境下保持穩定的效能。
如圖 21 所示,紅色的豎條為每一類圖片的訓練資料和測試資料背景環境的差異程度,藍色折現代表我們透過對樣本重新加權將關聯模型轉換為因果模型後取得的效能提升。可見,訓練和測試時環境差異越大,採用因果方法相對於關聯方法取得的效能提升也就越大。
同時,透過視覺化的方法,我們發現因果模型和基於關聯的模型會為不同的特徵賦予高權重。如圖 22 所示,圖中紅色的部分是因果模型更為關注的特徵,而綠色部分是基於關聯的模型更為關注的特徵。可見因果模型會自動地賦予目標本身的一些特徵以高權重,而基於關聯的模型還會賦予一些背景上的特徵以高權重。因此,在模型的可解釋性層面上,這兩種模型的差別較大。
連續變數的穩定學習
在上文中,我們介紹了對於二值離散變數的穩定學習。在這之後,崔老師團隊又將穩定學習推廣到了連續變數的情況下。
如圖 24 所示,在連續變數的情況下,採用穩定學習方法後,模型的跨環境的穩定性有很大的提升,誤差率在不同環境下的方差有顯著的降低。
實際上,想要使得所有變數都相互獨立是比較困難的目標,這要求我們擁有大量的訓練樣本。崔老師團隊在 KDD 2020 的論文「Stable Learning via Differentiated Variable Decorrelation」中,針對輸入資料中的部分變數,進行使其獨立的最佳化。
8 從因果問題到學習問題
除了從因果的角度對穩定學習進行解釋,我們也可以從機器學習的角度出發思考穩定學習問題。
從機器學習的角度來說,模型之所以不穩定是因為它不能夠估計出真實的資料產生機制。而估計的模型和真實模型之間的估計誤差存在一個上界「2(δ/γ)」,其中 δ 為偏置項的上界,而 γ^2 為輸入變數的中心化後的協方差矩陣的最小特徵值。γ 描述了輸入變數之間的共線性,即它們之間的相關程度。當我們消除掉變數之間的相關性後,γ 就會增大,從而使得估計誤差的上界降低。因此,從統計學習的角度來看,我們對輸入變數進行獨立性的最佳化,也可以保證模型的穩定性。
9 結語
因果推斷與機器學習相結合是一個方興未艾的研究領域,具有很廣闊的探索空間。最近,崔老師團隊為了推動這一領域的研究進展也釋出了 NICO 資料集,供有志於從事該領域研究的研究者使用。
當下的人工智慧技術往往不能很好地泛化到未知的環境,這是因為這些模型通常只做到了知其「然」(即關聯性)而不知其「所以然」(即因果性)。而穩定學習的目標正是在於尋找目前的機器學習方法與因果推理之間的共同基礎,從而推進這兩個方向的融合。