(轉載自微軟研究院AI頭條)
編者按:近年來,因果機器學習在人工智慧和諸多交叉領域產生了卓越的影響,得到了越來越多的關注。藉助因果關係推理,機器學習的魯棒性、泛化能力、可解釋性等方面都將得到有效提升。今天我們精選了三篇微軟亞洲研究院關於因果機器學習的 NeurIPS 2021 論文,為大家介紹該領域的最新科研進展。論文內容涵蓋:在單源域泛化預測、多源域泛化預測,以及模仿學習三類任務中學習因果關係的方法和理論,並展示了利用因果關係提高模型在環境和分佈發生變化時的穩健性。未來,微軟亞洲研究院將進一步推進機器學習方法在更多更嚴苛的現實任務上的應用。
近年來,隨著機器學習模型效能的不斷提高,人們逐漸不再滿足於它們在標準資料集上的表現,而是還希望它們能在真實的應用場景中同樣具有穩定可靠的表現。但實現此目的的一個重要挑戰是,真實場景中的環境情況通常與乾淨的標準訓練資料集不同,會有資料分佈的變化從而會遇到分佈外樣例,而模型不一定會在新環境中給出合理的結果。
這為機器學習模型帶來了新的要求,即模型需要學到做出預測或判斷的本質原因和規律,而非依賴於表面“看上去”的關聯關係,因為後者可能只是在特定環境下的表象,只有前者決定著環境變化之後的規律,可對分佈外樣例給出合理的結果。這便引出了因果機器學習這一新的研究方向。在 NeurIPS 2021 上,微軟亞洲研究院的研究員們發表了一系列因果機器學習領域的研究成果。
學習用於分佈外預測的因果語義表示
人們已經發現標準的有監督學習方法,特別是深度學習方法對分佈外樣例的預測表現欠佳。例如圖1中的例子[Ribeiro’16],若訓練集中大部分“哈士奇”的圖片都是暗背景而大部分“狼”的圖片都是雪地背景,那對於處在雪地中的“哈士奇”的測試樣例,模型會預測為“狼”。若對模型進行視覺化可發現模型更關注於背景,因為在這樣的資料集上,背景與前景物體具有很強的關聯性,並且背景是一個比前景物體更有區分度的特徵,但只有前景物體決定圖片的標註。
(圖1:分佈外預測任務的挑戰)
所以,微軟亞洲研究院的研究員們希望模型能夠學到類似於前景物體這樣的特徵進行預測。此目標可在因果關係理論下進行正式的描述。該理論是通過系統在干預(intervention)下的表現來定義因果關係的,即若通過干預改變變數 A 的值會改變變數 B 的值而干預 B 不會改變 A,那 A 就是 B 的因(cause),B 就是 A 的果(effect),記為 A→B。例如,海拔更高的城市的平均氣溫通常都比較低,但單從這樣的“海拔-氣溫”成對(pair)資料中並不能知道誰是因誰是果。人們知道海拔是氣溫的因,是因為若用一個大型舉重機把一個城市舉起,升高它的海拔,那它的氣溫會下降,而若用一個巨大的加熱器升高城市的溫度,那這個城市並不會自動下沉。同理,若強行改變一張圖 x 的背景而維持前景物體不變,那這張圖的標註 y 不應改變,而改變前景物體卻會改變 y。所以研究員們希望模型學到的是標註 y 的因,稱為“語義因子”(semantic factor)s,如前景物體,而相區別的是“多變因子”(variation factor)v,如圖片背景。只有將 s 識別出來才能做好分佈外預測(out-of-distribution prediction)。
基於這個因果角度的考慮,研究員們提出了“因果語義生成模型”(Causal Semantic Generative model, CSG),如圖2(a)所示(注意基於前面的考慮,圖中去掉了v→y)。此外,根據上面的例子,s和v在特定環境中常會相關,例如“哈士奇”/“狼”常與暗背景/雪地背景一起出現,但此相關性並非因為兩者間有因果關係,比如把“哈士奇”放到雪地中不會讓它變成“狼”,也不會把背景變暗。因此研究員們使用了一個無向邊來連線它們。這不同於大部分已有工作,那些工作認為各隱因子間都是獨立的。
(圖2:因果語義生成模型(a)及其用於測試域的變種(b,c))
因果不變性與分佈外預測
這個體現因果性質的模型可幫助做好分佈外預測。其出發點是 “因果不變性”(causal invariance),即因果關係不會隨環境或領域(domain)變化。這是因為因果關係反映的是基本的自然規律,例如一個場景下的物體和背景通過相機成像為圖片的過程,即 p(x│s,v),以及從物體的本質特徵給出標註的過程,即 p(y│s)。領域變化則源於先驗分佈 p(s,v) 的變化,例如訓練環境下的 p(s,v) 會給(“哈士奇”, 暗背景)以及(“狼”, 雪地背景)較大的值,而測試環境則相反。
作為對比,當前主流的領域自適應和領域泛化方法會在不同領域上使用同一個編碼器來推斷隱因子。這其實蘊含著“推斷不變性”(inference invariance)。研究員們認為,推斷不變性是因果不變性的特例。在支援推斷不變性的例子中,比如從圖片中推斷物體位置,具有因果性的生成機制 p(x│s,v) 幾乎是確定性的且可逆的,意味著只有一個“物體位置”的值(s 的一個分量)才能讓 p(x│s,v) 對於給定的 x 非零。由於 p(x│s,v) 具有因果不變性,所以這種推斷方式便也具有不變性。但當 p(x│s,v) 有噪或退化時,僅依據 p(x│s,v) 做推斷是任意的,例如圖3左圖中的數字可能是由“5”也可能是由“3”產生的,而右圖中,靠近我們的不論是 A 還是 B 面都會得到同樣的圖。這種情況下,由貝葉斯公式 p(s,v│x)∝p(s,v)p(x│s,v) 給出的推斷結果便會明顯受到先驗的影響。而先驗是會隨環境變化的(對可能的推斷結果的偏好因人而異),所以推斷不變性不再成立,而因果不變性卻仍然可靠。
(圖3:當生成機制 p(x│s,v) 有噪(左)或退化(右)時,推斷結果具有任意性,因而推斷不變性不再可靠)
基於因果不變性,研究員們給出了在測試域(test domain)上進行預測的原則。本篇論文考慮了兩種分佈外預測任務,稱為“分佈外泛化”(out-of-distribution generalization)以及“領域自適應”(domain adaptation)。兩者都只有一個訓練域(training domain)(因而分佈外泛化不同於領域泛化;下一篇工作會解決領域泛化任務),但領域自適應中有測試域上的無監督資料,而在分佈外泛化中則對測試域一無所知。
由因果不變性可知,在測試域上,具有因果性的資料生成機制 p(x│s,v) 和 p(y│s) 仍然適用,但先驗分佈會發生變化。對於分佈外泛化則需要考慮測試域先驗的所有可能性。因此,研究員們提出了適用一個獨立的先驗分佈 p^⊥ (s,v)≔p(s)p(v),其中 p(s) 和 p(v) 都是訓練域先驗 p(s,v) 的邊緣分佈。此選擇去掉了 s 和 v 在訓練域上的虛假關聯(spurious correlation),並且由於 p^⊥ (s,v) 具有比 p(s,v) 更大的熵,因此減去了獨屬訓練域的資訊,從而讓模型更依賴於具有因果不變性的生成機制進行預測。這種預測方法被稱為 CSG-ind。對於領域自適應,可利用無監督資料學習測試域的先驗 p ̃(s,v) 用於預測,其對應方法稱為 CSG-DA。這兩個模型示於圖2(b,c)中。值得注意的是,由於 CSG 在測試域上使用了與訓練域不同的先驗分佈,在測試域上得到的預測規則 p(y│x) 會不同於訓練域上的,因而此方法與基於推斷不變性的方法嚴格不同。
方法
事實上,無論哪種方法都首先需要很好地擬合訓練資料,因為這是所有監督資訊的來源。由於 CSG 涉及隱變數,難以直接計算資料對數似然 logp(x,y) 用於訓練,所以研究員們採用了變分貝葉斯方法(Variational Bayes)優化一個可以自適應變緊的下界,記為ELBO(Evidence Lower BOund)。雖然標準做法要引入形如 q(s,v│x,y) 的推斷模型(inference model),但它卻並不能幫助進行預測。為此,研究員們考慮用一個形如 q(s,v,y│x) 的模型表示所需推斷模型 q(s,v│x,y)=q(s,v,y│x)/∫q(s,v,y│x) dsdv。進一步,將它代入 ELBO 中可發現,這個新的 q(s,v,y│x) 模型的目標正是由 CSG 模型所定義的對應分佈 p(s,v,y│x),而由 CSG 的圖結構,這個分佈可分解為 p(s,v,y│x)=p(s,v│x)p(y│s),其中的 p(y│s) 已由 CSG 模型顯式給出,只有 p(s,v│x) 是難以計算的項。因此研究員們最終採用了一個形如 q(s,v│x) 的推斷模型以近似這個最小的難算部分 p(s,v│x),代入 ELBO 中即得訓練目標。
對於 CSG-ind,它一方面需要針對獨立先驗 p^⊥ (s,v) 的推斷模型 q^⊥ (s,v│x) 用於預測,另一方面也需要訓練域上的推斷模型 q(s,v│x) 用於訓練。為避免使用兩個推斷模型的麻煩,研究員們發現可用 q^⊥ (s,v│x) 表示 q(s,v│x)。這是因為這兩個模型分別以 CSG 所定義的 p(s,v│x) 及 CSG-ind 所定義的 p^⊥ (s,v) 為目標,根據兩者的關係,取 q(s,v│x)=(p(s,v) / p^⊥(s,v)) (p^⊥(x) / p(x)) q^⊥(s,v|x),這樣當 q^⊥ (s,v│x) 達成目標時,對應的 q(s,v│x) 也達成了目標。將此式代入 ELBO 中得到 CSG-ind 的訓練目標為:
其中 π(y│x)≔E_(q^⊥ (s,v│x) ) [p(s,v)/(p^⊥ (s,v) ) p(y│s)]。式子中的期望可在對 q(s,v│x) 進行重參化(reparameterization)後用蒙特卡羅(Monte Carlo)方法估計。預測由 p^⊥ (y│x)=E_(p^⊥ (s,v|x) ) [p(y│s)]≈E_(q^⊥ (s,v|x) ) [p(y│s)]給出。
對於 CSG-DA,它與 CSG-ind 類似,所以研究員們也用測試域上的推斷模型 q ̃(s,v│x) 來表示 q(s,v│x),並類似地寫出訓練域上的目標函式。CSG-DA 在測試域上還需要通過擬合無監督資料來學習測試域先驗 p ̃(s,v),這可由標準的 ELBO 實現:
理論
可以證明的是, CSG 模型在一定條件下可從單個訓練域上識別出語義因子,並且這種語義可識別性可保障 CSG 在分佈外預測上的表現(詳細描述請參看論文原文)。研究員們將“CSG 識別出了語義”定義為,存在一個可從真實(ground-truth)CSG 變換到該 CSG 的重參(reparameterization)滿足它不會將真實的v混到所學的s中去。
定理(單訓練域上的語義可識別性):假設 p(x│s,v) 和 p(y│s) 是加性噪聲(additive noise)形式 p_噪聲 (隨機變數-函式(條件變數)),且其中的函式是雙射,並且 logp(s,v) 有界。那當噪聲方差 σ_μ^2 趨於0或者噪聲有幾乎處處非零的特徵函式時,一個學好了的 CSG(即 p(x,y)=p^* (x,y))識別出了語義。
解讀:在單訓練域上取得識別性很難,所以必定會對它有要求。否則,若訓練域中所有“哈士奇”都在暗背景中且所有“狼”都在雪地中,那就算是神仙也不知道標註標的是前景物體還是背景。定理中 logp(s,v) 有界的條件正是針對這一點,因為在上述情況下 p(s,v) 集中在 (s,v(s)) 曲線上因而密度函式無界。而若此有界條件滿足,那當所學 CSG 將真實的 v 混入其 s 中時,真實 s 和 v 間的隨機性會對訓練集上的預測帶來更大的噪聲,從而使這個 CSG 不是“學好了的”。這是此定理的直覺。
定理(語義識別對分佈外泛化的保障):一個識別了語義的 CSG 在一無所知的測試域上的預測誤差有界:E_(p ̃^ (x) ) ‖E[y│x]-E ̃^ [y│x]‖_2^2≤Cσ_μ^4 E_(p ̃_(s,v) ) ‖∇ log(p ̃_(s,v)/p_(s,v) ) ‖_2^2(其中 C 是一個特定常數)。
定理中研究員們發現 E_(p ̃_(s,v) ) ‖∇ log(p ̃_(s,v)/p_(s,v) ) ‖_2^2 這一項正是衡量兩個領域上先驗分佈差別的費舍爾散度(Fisher divergence)D_F (p ̃_(s,v),p_(s,v) ),它在預測誤差的意義下衡量了兩個領域的差別程度。另外,更小的費舍爾散度 D_F (p ̃_(s,v),⋅) 需要比 p ̃_(s,v) 有更大支撐集的分佈,而 p_(s,v)^⊥ 恰好比 p_(s,v) 有更大的支撐集,這說明 CSG-ind 比 CSG 有更小的預測誤差界!
定理(語義識別對領域自適應的保障):基於一個識別了語義的 CSG 的學好了的(即 p ̃(x)=p ̃^ (x))測試域先驗 p ̃(s,v) 是真實的測試域先驗 p ̃^ (s,v) 的重參,並且基於它給出的預測規則是準確的,即 E ̃[y│x]=E ̃^* [y│x]。
實驗
研究員們設計了一個只包含數字0和1的“平移 MNIST”資料集,其中訓練資料中的0被有噪地向左平移5畫素,而1向右。除了原本的測試集,研究員們也考慮將其中的數字用零均值噪聲平移。更加真實的任務包括 ImageCLEF-DA,PACS 和 VLCS(附錄)。表1中的結果表明,對於分佈外泛化,CSG 勝過標準監督學習(cross-entropy,CE)及判別式因果方法 CNBB,同時 CSG-ind 也勝過 CSG,表明了使用獨立先驗用於預測的好處。對於領域自適應,CSG-DA 也勝過當前流行的方法。圖4中的視覺化分析表明所提方法更關注圖片中有語義資訊的區域和形狀。
(表1:平移MNIST(前兩行)、ImageCLEF-DA(中四行)和 PACS(後四行)資料集上分佈外泛化(左四列)和領域自適應(右五列)任務上各方法(所提方法加粗)的表現(預測準確度%))
(圖4:分佈外泛化(上兩行)及領域自適應(下兩行)任務中各方法的視覺化結果(基於LIME [Ribeiro’16]))
尋找用於變分佈泛化的隱式因果因子
這篇論文將 CSG 模型推廣到了多訓練域的情況,即用來處理領域泛化(domain generalization)任務,並給出了相應的演算法和理論。為了建模與領域標號 d 的關係,此時的先驗分佈記為 p^d (s,v)。為避免在圖模型中以及在演算法和理論中暗含給定 d 之後 s 與 v 的獨立性,研究員們引入了混淆變數(confounder)c。它解釋了 s 與 v 之間的虛假關聯(spurious correlation),因為儘管 s 和 v 之間沒有因果關係,但若忽略 c,那看上去 s 和 v 就會有相關性:p^d (s,v)=∫p^d (c) p^d (s│c) p^d (v│c) dc。擴充後的模型如圖5所示,被稱為隱式因果不變模型(Latent Causal Invariant Model,LaCIM)。
(圖5:隱式因果不變模型(LaCIM))
LaCIM 的訓練方法與 CSG 類似,只是需要對所有訓練域上的目標函式求和,並在各訓練域上使用各自的先驗模型 p^d (s,v) 和推斷模型 q^d (s,v│x)。而其預測方法則與 CSG-ind 類似,區別在於推斷 (s,v) 不通過一個推斷模型,而是直接使用最大後驗估計(maximum a posteriori estimate, MAP):p^(d^' ) (y│x)=p(y│s(x) ), 其中 (s(x),v(x))≔argmax_(s,v) p(x│s,v) p^⊥ (s,v)^λ .
理論
由於需要建模各分佈與領域標號 d 的關係,理論分析中需要加入更多的結構。因此,假設 c∈[C]≔{1,…,C},且 p^d (s│c) 和 p^d (v│c) 都屬於指數分佈族(exponential family),進而定義相應的識別性概念,稱為指數識別性:存在一個可從真實 LaCIM 變換到所學 LaCIM 的重參,且此重參可在允許一個分量置換和整體平移的意義下分別恢復出真實 p^d (s│c) 和 p^d (v│c) 的充分統計量。
定理(多訓練域上的指數可識別性):假設 p(x│s,v) 和 p(y│s) 是特定加性噪聲形式,且 p^d (s│c) 和 p^d (v│c) 的充分統計量線性獨立。那麼當各訓練域在特定意義下足夠多樣時,一個學好了的 LaCIM 就取得了指數識別性。
此定理的結論(取得指數識別性)比單訓練域上可識別性定理的結論(取得語義識別性)更強。這體現在,前者不僅要求後者所要求的學到的 s 未混入真實的 v,還要求學到的 v 未混入真實的 s,即要求學到的 s 和 v 是解耦的(disentangled)。之所以能得到更強的結論,是因為多個足夠多樣的訓練域為模型帶來了更多的資訊,且指數分佈族也為模型帶來了更具體的結構。另外,此結論也強於 identifiable-VAE [Khemakhem’20] 的結論,因為此結論要求充分統計量的分量置換不能跨越 s 和 v 的內部。
實驗
在實驗中,研究員們選擇了一些最新的領域泛化資料集,包括 NICO 自然圖片資料集、彩色 MNIST,以及預測阿爾茲海默症的 ADNI 資料集。表2中的結果表明 LaCIM 取得了最好的表現。可以注意到 LaCIM 也比不區分 s 和 v 的變種 LaCIMz 表現好,說明了將 s 和 v 分別建模的好處。圖6中的視覺化分析表明,LaCIM 很好地區分開了語義和多樣因子,且關注圖片中具有語義資訊的區域。
(表2: 領域泛化的各資料集上各方法的表現(預測準確度%))
(圖6:領域泛化任務中各方法的視覺化結果)
解決模仿學習中因果混淆問題的察覺物件的正則化方法
這一篇因果機器學習的論文關注的是模仿學習(imitation learning)中的因果混淆(causal confusion)問題。模仿學習即為從專家示範中學習策略模型(policy),它可利用已有資料來避免或減少危險或高代價的與環境互動。行為克隆(behavioral cloning, BC)是一種簡單有效的方法,它將模仿專家示範看作一個有監督學習任務,即用狀態(state)s 預測動作(action)a。然而,該方法常會產生因果混淆問題,即學到的策略關注的是專家動作的明顯結果而非原因(即專家策略所關注的物件)。De Haan等人 (2019)舉了一個經典例子:考慮司機做駕駛示範的過程,其中車的儀表盤上有剎車指示燈。當視野中出現行人時,司機會採剎車同時剎車燈亮起。由於“a=踩剎車”和“s=剎車燈亮起”總是同時出現,策略模型很可能會僅僅基於剎車燈來決定是否踩剎車,這樣可以很好地擬合示範資料,但在使用中當視野中出現行人時,由於剎車燈沒有亮,它也仍然不會踩剎車,這顯然不是人們希望的。
研究員們發現,因果混淆問題在一般的場景中廣泛存在。如圖7所示,原本環境下學到的策略表現遠不如訓練時將分數掩蓋掉的好。原環境中,策略模型會僅僅依賴於畫面中的分數給出動作,因為它與專家動作的關係緊密而敏感,但卻不知這只是專家動作的結果,所以在使用中不能採取有效的動作。而在分數被掩蓋的環境中,策略模型不得不尋找其他線索來預測專家動作,才得以發現真實規律。
方法
由上述分析,研究員們發現產生因果混淆問題主要是因為策略模型僅僅依賴於畫面中的個別物件採取動作,而此物件往往是專家動作所產生的看上去很明顯的結果。這啟發了研究員們通過讓策略模型均衡地關注畫面中的所有物件來應對此問題,使策略模型能注意到真正的因。
實現此想法需要解決兩個任務:(1)從影像中提取物件。(2)讓策略模型注意到所有物件。對於第一個任務,研究員們採用了量子化向量變分自編碼器(vector-quantized variational auto-encoder,VQ-VAE)[v.d. Oord’17] 抽取物件特徵。如圖8所示,研究員們發現,VQ-VAE 學到的離散編碼相近的值(相近的顏色)代表了同一(或語義相近的)物件,因此它找到並區分了影像中的物件。
(圖8:VQ-VAE 學到的離散編碼可找到並區分影像中的物件_
對於第二個任務,研究員們對每一個離散編碼的值隨機地決定是否選擇它,並在影像的 VQ-VAE 編碼中掩蓋掉具有所選離散值的格點。此操作掩蓋掉了編碼中的一些物件,迫使策略模型關注未被掩蓋掉的物件,避免僅關注個別物件。這是與現有方法最大的不同,現有方法掩蓋掉的都是空間上相近的區域,並不反映具有語義的物件。因此,此方法被稱為“察覺物件的正則化方法”(Object-aware REgularizatiOn,OREO)。圖9展示了 OREO 方法的流程。第一階段訓練 VQ-VAE 提取物件表示,第二階段學習基於 VQ-VAE 編碼的策略模型,其間通過所述隨機掩蓋物件的方法做正則化。
(圖9:“察覺物件的正則化方法”(OREO)的流程)
實驗
首先,考慮混淆雅達利遊戲(confounded Atari games)環境,這是 De Haan 等人(2019) 所提出的考察因果混淆問題的環境,其中游戲影像的每一幀都額外顯示玩家上一步採取的動作。如表3所示,OREO 方法在大部分遊戲中都取得了最好的表現。特別地一點,OREO 方法勝過在空間區域上隨機掩蓋的方法(Dropout, DropBlock)、資料增廣(data augmentation)方法(Cutout, RandomShift)、以及空間式地隨機掩蓋 beta-VAE 所學編碼的方法(CCIL)[De Hann’19],說明了用察覺物件的方式進行正則化的優勢。OREO 也勝過了因果預測方法 CRLR,說明簡單直接地應用因果方法並不一定有效,因為其假設在模仿學習任務中並不成立,例如影像資料各維度間並沒有明確的因果關係,且變數關係也非線性。圖10的視覺化結果表明,行為克隆所學到的策略確實僅關注個別物體,而 OREO 學到的則更廣泛地關注圖中的相關物件。對於真實場景任務,研究員們也考察了在 CARLA 駕駛模擬環境中的表現。表4中的結果表明 OREO 也取得了最好的表現。論文原文及附錄中提供了更多實驗結果。
(表3:混淆雅達利遊戲環境中各模仿學習演算法的表現比較)
(圖10:使用行為克隆(第一行)及 OREO 方法(第二行)在混淆雅達利環境(左列)及原本的雅達利環境(右列)下學到的策略模型的視覺化結果)
(表4:CARLA 駕駛模擬環境中各任務下各模仿學習演算法的成功率)
參考文獻:
- [Ribeiro’16] M. T. Ribeiro, S. Singh, and C. Guestrin. “Why should I trust you?": Explaining the predictions of any classifier. In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Francisco, CA, USA, August 13-17, 2016, pages 1135–1144, 2016.
- [v.d. Oord’17] van den Oord, A., Vinyals, O., & Kavukcuoglu, K. Neural discrete representation learning. In Proceedings of the 31st International Conference on Neural Information Processing Systems (pp. 6309-6318), 2017.
- [de Haan’19] de Haan, Pim, Jayaraman, Dinesh, and Levine, Sergey. Causal confusion in imitation learning. In Advances in Neural Information Processing Systems, 2019.
- [Khemakhem’20] I. Khemakhem, D. P. Kingma, R. P. Monti, and A. Hyvärinen. Variational autoencoders and nonlinear ICA: A unifying framework. In the 23rd International Conference on Artificial Intelligence and Statistics, 26-28 August 2020, Online [Palermo, Sicily, Italy], volume 108 of Proceedings of Machine Learning Research, pages 2207–2217, 2020.
歡迎關注微軟中國MSDN訂閱號,獲取更多最新發布!