ICLR 2020 Oral | 基於計算約束下的有用資訊的資訊理論

北京大學前沿計算研究中心發表於2020-04-16
導讀

本文是第八屆國際表徵學習會議 (ICLR 2020) 入選口頭展示論文 (oral)《基於計算約束下的有用資訊的資訊理論 (A Theory of Usable Information Under Computational Constraint)》的解讀。該論文由北京大學2016級圖靈班本科生許逸倫,史丹佛博士生Shengjia Zhao, Jiaming Song, Russell Stewart,和史丹佛大學助理教授Stefano Ermon合作完成。在審稿階段中,該論文獲“滿分”接收。

Arxiv Link: https://arxiv.org/abs/2002.10689

Openreview Link: https://openreview.net/forum?id=r1eBeyHFDH

ICLR 2020 Oral | 基於計算約束下的有用資訊的資訊理論

01 背景

夏農互資訊(Mutual Information)是一套影響深遠的理論,並且在機器學習中的表示學習(Representation Learning)、資訊最大化(Informax)、對比預測性編碼(Contrastive Predictive Coding)與特徵性選擇;和結構學習(Structure Learning)中的貝葉斯網路的構建,均有廣泛應用。但夏農資訊理論沒有考慮很重要的計算約束方面的問題,並假設了我們有無窮的計算能力。為了突出這個問題,我們考慮以下這個密碼學中的例子。

在我們的例子中,有一個帶標註的明文資料集,同時有一個相對應的 RSA 加密後的秘文資料集。如果 RSA 的公鑰已知,那麼由於 RSA 是雙射的,根據互資訊在雙射下的不變性,明文與秘文應該與其標註有著相同的互資訊,如下圖所示:

ICLR 2020 Oral | 基於計算約束下的有用資訊的資訊理論

為了更直觀地理解其中的不合理性,我們用相應的圖片分別表示明文和秘文,如下圖所示,加密後的圖片看起來就像隨機取樣產生的噪聲圖片。ICLR 2020 Oral | 基於計算約束下的有用資訊的資訊理論

但是對於人類(或機器學習演算法)來說,根據明文去預測標註顯然比根據秘文去預測更容易。因此我們認為,在人類看來,明文與標註有著更大的互資訊,但這與夏農互資訊矛盾。這個矛盾背後的原因正是因為夏農互資訊假設了觀測者有無窮的計算能力,從而忽視了什麼是對於觀測者來說的有用資訊。

ICLR 2020 Oral | 基於計算約束下的有用資訊的資訊理論

另一個例子是,由夏農互資訊的資料處理不等式(data processing inequality)我們知道,神經網路的深層表示(CNN feature)與標註的互資訊應少於原始輸入與標註的互資訊。但是在簡單的分類器看來,深層表示與標註的互資訊更大。

ICLR 2020 Oral | 基於計算約束下的有用資訊的資訊理論

因此,夏農互資訊對無窮計算能力的假設與對基於觀測者的有用資訊的忽視帶來了許多反直覺的例子。

除此之外,本文還證明了現有的對夏農互資訊的變分估計量(NWJ, MINE, CPC)或者有較大的方差,或者有較大的估計誤差,比如 NJW 估計量的誤差可以到互資訊量的指數級別。

02 V-資訊:一種新的資訊理論框架

基於以上提到的夏農資訊理論的缺點,本文利用變分 (variational)的思想提出了一種顯示地考慮計算約束的資訊量,並稱之為 V(ariational)-information。

首先,我們定義一個大集合

ICLR 2020 Oral | 基於計算約束下的有用資訊的資訊理論

這個集合包含所有把一個隨機變數 X 的具體取值對映到另一個隨機變數的取值域上的機率測度P(Y)

什麼是計算約束呢?首先見下面我們對條件 V-熵(conditional V-entropy)的定義(其中我們省去了不重要的預測族(predictive family)的定義,它本質上是加了些正則條件,感興趣的小夥伴可以看下原 paper):

定義(條件 V-熵):X, Y 是兩個取值在 X, Y 的隨機變數,⊆ Ω 是一個預測族,則條件 V-熵的定義為:

ICLR 2020 Oral | 基於計算約束下的有用資訊的資訊理論

計算約束體現在觀測者被限制為 V ⊆ Ω,即取全集 Ω 的一個子集合 V。由於 ⊆ Ω,因此定義中的 f[x] 是一個機率測度,f[x](y) 是該機率測度(如機率密度函式)在 y 處的取值。

直觀地來看,條件 V-熵是在觀測到額外資訊 X 的情況下,僅利用函式族 中的函式,去預測可以取到的期望下最小的負對數似然(negative log-likelihood)。同理定義 V-熵,也就是沒有觀測到額外資訊(用 ∅ 表示)的情況下,利用 V 中的函式去預測 可以取到的期望下最小的負對數似然。

下面我們展示,透過取不同的函式族 V,許多對不確定性的度量 (如方差、平均絕對離差、熵)是V-熵的特例:

ICLR 2020 Oral | 基於計算約束下的有用資訊的資訊理論

接著類似於夏農互資訊的定義,我們利用 V-熵來定義 V-資訊:

定義V-資訊):X, Y 是兩個取值在 X, Y 的隨機變數,⊆ Ω 是一個預測族,則 V-資訊的定義為:

ICLR 2020 Oral | 基於計算約束下的有用資訊的資訊理論

即從 X  V-資訊是 Y V-熵在有考慮額外資訊 X 的情況下的減少量。我們也證明了決定係數、夏農互資訊均為 V-資訊在取不同函式族 V 下的特例。我們還證明了 V-資訊的一些性質,比如單調性(取更大的函式族 VV-資訊也隨之增大),非負性與獨立性(X, Y 獨立則 V-資訊為0)。

此外我們展示,透過顯示地考慮計算約束,在 V-資訊的框架下,計算可以增加 V-資訊,即增加對觀測者而言的有用資訊:

ICLR 2020 Oral | 基於計算約束下的有用資訊的資訊理論

同時,注意到 V-資訊是非對稱的,它可以很自然地用到一些因果發現或者密碼學(如 one-way function)的場景中。

03 V-資訊的估計

不同於夏農互資訊,在對函式族 V 的一些假設下,本文證明了 V-資訊在有限樣本上的估計誤差是有 PAC 界的:ICLR 2020 Oral | 基於計算約束下的有用資訊的資訊理論

這個 PAC 界啟發我們將 V-資訊用於一些使用夏農互資訊的結構學習的演算法中。我們發現這些之前在有限樣本上沒有保證的演算法,遷移到 V-資訊下就有了保證。比如 Chow-Liu 演算法就是一例:

ICLR 2020 Oral | 基於計算約束下的有用資訊的資訊理論

本文透過實驗驗證了新的基於 V-資訊的演算法構建 Chow-Liu Tree 的效果,優於利用現存最好的互資訊估計量的 Chow-Liu 演算法。

ICLR 2020 Oral | 基於計算約束下的有用資訊的資訊理論

04  更多的實驗

我們也將 V-資訊用到了其他結構學習的任務中,如基因網路重建(下左圖)和因果推斷(下右圖)。

ICLR 2020 Oral | 基於計算約束下的有用資訊的資訊理論

注意到與一些非引數化的估計量(如 KSG, Partitioning 等)相比,我們的方法在低維基因網路的重建中取得了更好的效果。同時我們的方法在因果推斷的實驗中正確地重建了時序序列。在確定性的時序軌跡 (deterministic dynamics)下,夏農互資訊是無法重建時序序列的。

最後,我們將 V-資訊應用到公平表示(fairness)上。若VA, VB 是兩個不同的函式族,我們發現實現 VA-資訊最小化的公平表示不一定能泛化到 VB-資訊最小化。這一發現挑戰了許多現有文獻的結果。

05  總結

本文提出並探索了一種新的資訊框架 V-資訊。V-資訊包含了許多現有的概念,並且有許多機器學習領域喜歡的性質,比如對資訊處理不等式的違背與非對稱性。V-資訊可以被有保證地估計好,且在結構學習中有著優異的表現。

ICLR

國際表徵學習會議(The International Conference on Learning Representations, ICLR)深度學習領域的頂級會議,也是國際發展最快的人工智慧專業會議之一,由深度學習三大巨頭之二的 Yoshua Bengio 和Yann LeCun 牽頭創辦。會議採取公開評審的審稿制度,因其在深度學習領域各方面(如人工智慧、統計學和資料科學),以及計算機視覺、計算生物學等重要應用領域發表和展示前沿研究成果而享譽全球。ICLR 2020原定2020年4月26日至5月1日在衣索比亞舉行,現因疫情緣故改為線上舉行。

相關文章