Data2vec:第一個適用於語音、視覺和文字等多領域的高效能自監督演算法

banq發表於2022-01-28

自我監督學習推動了人工智慧的許多重大進展,所謂自我監督學習:機器通過直接觀察環境進行學習,而不是通過標記的影像、文字、音訊和其他資料來源進行明確的教導;雖然人們也似乎以相似的方式學習,但是學習的方式存在很大差異方式。

這種差異一直是更廣泛地應用自我監督學習進步的重大障礙。因為為理解影像而設計的強大演算法不能直接應用於另一種模態,例如文字,所以很難以相同的速度推動幾種模態。

這就是為什麼Meta AI開發並興奮地宣佈data2vec,第一個適用於多種模式的高效能自監督演算法。

我們將data2vec分別應用於語音、影像和文字,它的效能超過了以前計算機視覺和語音的最佳單一用途演算法,而且在NLP任務上也很有競爭力。它也代表了一種新的整體自我監督學習的正規化,新的研究改善了多種模式,而不僅僅是一種模式。

它也不依賴於對比性學習或重建輸入例項。除了幫助加速人工智慧的進展外,data2vec使我們更接近於建造能夠無縫學習周圍世界不同方面的機器。它將使我們能夠開發出更具適應性的人工智慧,我們相信它將能夠執行超出今天的系統所能做到的任務。

 

傳統監督學習原理

許多人工智慧仍然基於監督學習,而監督學習完全是通過標記的資料進行的。但是,我們根本不可能為所有我們希望機器做的事情收集標記的資料。例如,雖然研究人員在為英語語音和文字建立大規模的標記資料集方面做了大量工作,但要為地球上的成千上萬種語言做到這一點是不可能的。

自我監督使計算機能夠通過觀察世界,然後找出影像、語音或文字的結構來了解世界。擁有不需要明確教導就能對影像進行分類或理解口頭語言的機器,其可擴充套件性就更強。

今天,自我監督學習的研究幾乎總是集中在一個特定的模式上。因此,研究一種模式的研究人員往往採取與研究另一種模式的研究人員非常不同的方法。對於文字,研究人員訓練模型來填補句子中的空白。然而,語音模型需要學習語音的基本聲音清單,以便預測缺失的聲音。在計算機視覺中,模型通常被訓練成為牛的彩色影像和相同的影像翻轉後的相似表徵,因此它將兩者聯絡起來的程度要比與之無關的影像(如鴨子的影像)密切得多。

演算法還為每種模式預測不同的單位:影像的畫素或視覺標記,文字的單詞,以及語音的聲音學習目錄。一組畫素與一個音訊波形或一段文字是非常不同的,正因為如此,演算法設計一直與特定的模式相聯絡。這意味著演算法在每種模式下的運作方式仍然不同。

 

data2vec如何工作

Data2vec通過訓練模型來預測它們自己對輸入資料的表示,而不考慮模式,從而簡化了這一點。通過關注這些表徵--神經網路的層--而不是預測視覺標記、單詞或聲音,一個單一的演算法可以處理完全不同型別的輸入。這就消除了學習任務中對特定模式目標的依賴。直接預測表徵並不直截了當,它需要為任務定義一個穩健的規範化特徵,在不同的模態中都是可靠的。

我們的方法使用一個教師網路,首先從影像、文字或語音語調中計算出目標表徵。

接下來,我們遮蔽部分輸入,用學生網路重複這一過程,然後預測教師的潛在表徵。

學生模型必須預測全部輸入資料的表徵,儘管它只看到了部分資訊。

教師網路與學生模型相同,但其權重略微過期。

  

點選標題原文

相關文章