基於自編碼器的表徵學習:如何攻克半監督和無監督學習?

機器之心發表於2018-12-22

蘇黎世聯邦理工學院和谷歌大腦團隊研究者的 NeurIPS 2018 會議貝葉斯深度學習(Bayesian Deep Learning)研討會論文《Recent Advances in Autoencoder-Based Representation Learning》系統性地介紹了基於自編碼器的表徵學習的最新進展。

為了將人工智慧應用於從世界收集的大量無標註資料,一大關鍵難題是要能僅用少量監督或無監督的學習方法來學習有用的表徵。儘管在資料上學習到的表徵的有用性顯然很大程度上取決於其所針對的最終任務,但仍可想見有些表徵的性質可同時用於很多真實世界任務。在一篇有關表徵學習的開創性論文中,Bengio et al. [1] 提出了這樣一組元先驗(meta-prior)。這些元先驗來自對世界的一般性假設,比如解釋性元素的層次化組織形式或解離性(disentanglement)、監督學習的可能性、資料在低維流形上的彙集、可聚類性、時間和空間一致性。

近段時間,研究者們已提出了多種基於自編碼思想的(無監督)表徵學習演算法;這種思想的目標是學習從高維觀察到低維表徵空間的對映,使得可透過低維的表徵(近似地)重建出原來的觀察。儘管這些方法有各不相同的目標和設計選擇,但我們認為這篇論文介紹的所有方法本質上都隱式或顯式地圍繞著來自 Bengio et al. [1] 的一個元先驗。

鑑於上游表徵學習任務本質上的無監督性,表徵學習步驟中強制執行的元先驗的特效能決定所得到的表徵對真實世界最終任務的有用程度。因此,為了強制執行給定的元先驗,需要理解哪種模型和哪種通用技術針對哪種元先驗是有用的。在這篇論文中,我們提供了一種統一視角,其中包含大多數已提出的模型並給出了它們與 Bengio et al. [1] 中提出的元先驗的關係。我們在表 1 中總結了近期在元先驗方面的研究工作。

基於自編碼器的表徵學習:如何攻克半監督和無監督學習?

表 1:根據 [1] 中的用於表徵學習的元先驗分組的方法。儘管很多方法都直接或間接地解決了多個元先驗,但我們僅考慮了每種方法中最顯著的目標。注意,本質上所有方法都會強制使用低維和流形結構等元先驗。

Bengio et al. [1] 的元先驗。元先驗有關於這個世界的非常通用的前提條件,因此也被認為可用於範圍廣泛的下游任務。我們簡要地總結了我們審閱過的方法所針對的最重要的元先驗。

  1. 解離性:假設資料是基於互相獨立的因素(這些因素內部也存在一定的變化範圍)生成的,比如目標影像中的目標方向和光照條件,作為一個元先驗,解離性更傾向於用表徵中不同的獨立變數表示這些因素。這樣應該就能得到資料的簡潔的抽象表示,從而可用於各種下游任務並有望提升樣本效率。

  2. 解釋性因素的層次化組織形式:這一元先驗背後的直觀知識是這個世界可以被描述為越來越抽象概念的層次結構。比如自然影像可以在不同層次的粒度上根據圖中的目標進行抽象的描述。給定目標,可由目標的屬性給出更具體的描述。

  3. 監督學習監督學習思想是在監督學習任務和無監督學習任務之間共享表徵,這通常會帶來協同效應:儘管有標註資料點的數量通常過小,不足以學習得到優良的預測器(也沒有優良的表徵),但與無監督目標一起聯合訓練能讓監督任務學習到可泛化的表徵,同時監督任務還能引導表徵學習過程。

  4. 聚類結構:很多真實世界資料集都有多類結構(比如具有不同目標類別的影像),這些結構可能具有各不相同的與類別有關的因素(這些因素內部也存在一定的變化範圍)。這種結構可由隱含混合模型學習得到,其中每種混合組分都對應一種類別,並且其分佈也能建模該類別之中的因素的變化情況。這能自然地得到具有聚類結構的表徵。

平滑度(smoothness)與時間空間的一致性等非常通用的概念並不特定於無監督學習,並且可在大多數實際設定中使用(比如有助於預測器平滑度的權重衰減,以及用於獲取影像資料中空間一致性的卷積層。我們將在第 7 節討論大多數方法使用的隱式監督。

用於強制執行元先驗的機制。我們識別出了以下三種強制執行元先驗的機制:

  1. 編碼分佈的正則化(第 3 節)。

  2. 編碼和解碼分佈或模型族的選擇(第 4 節)。

  3. 靈活的表徵的先驗分佈的選擇(第 5 節)。

比如,編碼分佈的正則化通常被用於促進使用解離後的表徵。另外,以一種層次化的方式分解編碼和解碼分佈讓我們可以將層次結構施加到表徵上。最終,可使用一種更加靈活的先驗(比如一種混合分佈)來促進可聚類能力。

基於自編碼器的表徵學習:如何攻克半監督和無監督學習?

圖 1:圖(a)說明了編碼器、解碼器和先驗分佈在隱含(表徵/程式碼)空間上指定的變分自編碼器(VAE)框架。編碼器是將輸入對映到表徵空間(推理),而解碼器則是根據表徵重建原輸入。編碼器應該滿足該隱含空間上的某些結構(比如應該是解離的)。圖(b)展示了在 MNIST 資料集上訓練後的具有二維隱含空間的自編碼器。左圖中的每個點都對應於一個數字的表徵(原來有 784 個維度),右圖是重建出的數字。

可以看到,這個案例中的隱含表徵是有聚類的(多種風格的同一數字在 L2 距離上很接近,而在每一組中,位置都對應於數字的旋轉)。

在開始我們的概述之前,我們在第 2 節給出了理解變分自編碼器(VAE)[25, 26] 所需的主要概念、本論文中考慮過的大多數基礎方法以及用於估計機率分佈之間的散度的多種技術。然後我們會在第 3 節詳細討論基於正則化的方法,在第 4 節介紹依賴結構化的編碼和解碼分佈的方法,在第 5 節介紹使用結構化先驗分佈的方法。我們在第 6 節透過概述跨領域表徵學習 [27-29] 等相關方法而進行了總結。最後,我們在第 7 節透過 Alemi et al. [30] 的資料率-失真(rate-distortion)框架評判了無監督表徵學習並探討了其意義。

論文:基於自編碼器的表徵學習近期進展(Recent Advances in Autoencoder-Based Representation Learning)

基於自編碼器的表徵學習:如何攻克半監督和無監督學習?

論文地址:https://arxiv.org/abs/1812.05069

摘要:在很少或沒有監督的情況下學習有用的表徵是人工智慧領域的一大關鍵挑戰。我們以基於自編碼器的模型為核心,對表徵學習的最新進展進行了深度概述。為了組織這些結果,我們使用了據信對下游任務有用的元先驗,比如特徵的解離性和層次結構。具體而言,我們揭示了三種強制實現這些屬性的主要機制:(1)正則化(近似的或聚合的)後驗分佈,(2)分解編碼和解碼分佈,(3)引入一個結構化的先驗分佈。儘管已有一些有希望的結果,但隱式或顯式的監督仍然是一個關鍵推動因素,所有現有方法都使用了較強的歸納偏置且有建模方面的假設前提。最後,我們還透過資料率-失真理論對基於自編碼器的表徵學習進行了分析,並確定了下游任務相關先驗知識可用量與該表徵在該任務中的有用程度之間的明確權衡。

基於自編碼器的表徵學習:如何攻克半監督和無監督學習?

表 2:選擇了不同正則化方法 和 的研究概述。[5] 中的學習目標是指定的。大多數方法都使用了多變數標準正態分佈作為先驗(更多詳情見附錄表 3)。最後一列「Y」表示是否使用了監督:√ 表示需要標籤,O 表示標籤是可選擇使用的(從而實現監督或監督學習)。注意某些正則化演算法經過了簡化。

基於自編碼器的表徵學習:如何攻克半監督和無監督學習?

圖 3:不同正則化演算法的示意圖概述。大多數方法都側重於正則化聚合的後驗,而在測量先驗的分歧的方法各有不同。表 2 提供了更多細節,深度討論見第 3 節。

基於自編碼器的表徵學習:如何攻克半監督和無監督學習?

圖 5:圖(a)展示了一個帶有層次編碼分佈和 PixelCNN 解碼分佈的 VAE 示例,圖(b)給出了不同模型所用的分解方法概況。我們表示編碼(ENC)和解碼(DEC)分佈的結構的方式為:H 表示層次,A 表示自迴歸,(預設)是全連線或卷積的前饋式神經網路。我們表示後驗部分的方式為:N 表示多變數標準正態分佈,C 表示類別式,M 表示混合分佈,G 表示圖模型,L 表示學習得到的先驗。最後一列「Y」表示是否使用了監督。

基於自編碼器的表徵學習:如何攻克半監督和無監督學習?

圖 6:圖(a)展示了一個帶有多模態連續或離散先驗(每個先驗都會產生一個不同的模型)的 VAE 示例。圖(b)給出了不同模型使用的先驗的概況。

基於自編碼器的表徵學習:如何攻克半監督和無監督學習?

圖 7:圖(a)展示了 [30] 的資料率-失真權衡,其中 D 對應 (β-)VAE 目標中的重建項,R 對應 KL 項。圖(b)展示了 [10,9] 中的監督式案例的一個相似的權衡。如圖(c)所示,不能反映所學到的表徵對未知下游任務的有用程度。 

相關文章