Data2vec:第一個適用於語音、視覺和文字等多領域的高效能自監督演算法
自我監督學習推動了人工智慧的許多重大進展,所謂自我監督學習:機器通過直接觀察環境進行學習,而不是通過標記的影像、文字、音訊和其他資料來源進行明確的教導;雖然人們也似乎以相似的方式學習,但是學習的方式存在很大差異方式。
這種差異一直是更廣泛地應用自我監督學習進步的重大障礙。因為為理解影像而設計的強大演算法不能直接應用於另一種模態,例如文字,所以很難以相同的速度推動幾種模態。
這就是為什麼Meta AI開發並興奮地宣佈data2vec,第一個適用於多種模式的高效能自監督演算法。
我們將data2vec分別應用於語音、影像和文字,它的效能超過了以前計算機視覺和語音的最佳單一用途演算法,而且在NLP任務上也很有競爭力。它也代表了一種新的整體自我監督學習的正規化,新的研究改善了多種模式,而不僅僅是一種模式。
它也不依賴於對比性學習或重建輸入例項。除了幫助加速人工智慧的進展外,data2vec使我們更接近於建造能夠無縫學習周圍世界不同方面的機器。它將使我們能夠開發出更具適應性的人工智慧,我們相信它將能夠執行超出今天的系統所能做到的任務。
傳統監督學習原理
許多人工智慧仍然基於監督學習,而監督學習完全是通過標記的資料進行的。但是,我們根本不可能為所有我們希望機器做的事情收集標記的資料。例如,雖然研究人員在為英語語音和文字建立大規模的標記資料集方面做了大量工作,但要為地球上的成千上萬種語言做到這一點是不可能的。
自我監督使計算機能夠通過觀察世界,然後找出影像、語音或文字的結構來了解世界。擁有不需要明確教導就能對影像進行分類或理解口頭語言的機器,其可擴充套件性就更強。
今天,自我監督學習的研究幾乎總是集中在一個特定的模式上。因此,研究一種模式的研究人員往往採取與研究另一種模式的研究人員非常不同的方法。對於文字,研究人員訓練模型來填補句子中的空白。然而,語音模型需要學習語音的基本聲音清單,以便預測缺失的聲音。在計算機視覺中,模型通常被訓練成為牛的彩色影像和相同的影像翻轉後的相似表徵,因此它將兩者聯絡起來的程度要比與之無關的影像(如鴨子的影像)密切得多。
演算法還為每種模式預測不同的單位:影像的畫素或視覺標記,文字的單詞,以及語音的聲音學習目錄。一組畫素與一個音訊波形或一段文字是非常不同的,正因為如此,演算法設計一直與特定的模式相聯絡。這意味著演算法在每種模式下的運作方式仍然不同。
data2vec如何工作
Data2vec通過訓練模型來預測它們自己對輸入資料的表示,而不考慮模式,從而簡化了這一點。通過關注這些表徵--神經網路的層--而不是預測視覺標記、單詞或聲音,一個單一的演算法可以處理完全不同型別的輸入。這就消除了學習任務中對特定模式目標的依賴。直接預測表徵並不直截了當,它需要為任務定義一個穩健的規範化特徵,在不同的模態中都是可靠的。
我們的方法使用一個教師網路,首先從影像、文字或語音語調中計算出目標表徵。
接下來,我們遮蔽部分輸入,用學生網路重複這一過程,然後預測教師的潛在表徵。
學生模型必須預測全部輸入資料的表徵,儘管它只看到了部分資訊。
教師網路與學生模型相同,但其權重略微過期。
點選標題原文
相關文章
- 行業分析| 音視訊呼叫邀請適用於多領域行業
- EasyCV開源|開箱即用的視覺自監督+Transformer演算法庫視覺ORM演算法
- MAE自監督演算法介紹和基於EasyCV的復現演算法
- AAAI 2020 | 基於多工自監督學習的文字順滑研究AI
- 帶你讀論文丨基於視覺匹配的自適應文字識別視覺
- 無監督文字自動摘要野生技術
- 對抗式協作:一個框架解決多個無監督學習視覺問題框架視覺
- 物聯網路卡適用於哪些領域
- 基於自編碼器的表徵學習:如何攻克半監督和無監督學習?
- 基於OpenAi通用特定領域的智慧語音小助手OpenAI
- 網路視覺化:扭轉安全領域的不對等挑戰視覺化
- 嵌入式視覺領域的機器學習視覺機器學習
- Facebook ICCV論文:利用傳遞不變性的自監督視覺表徵學習視覺
- NeurIPS 2018 | 基於自監督學習的視聽覺資訊同一性判斷
- 自監督學習
- 各個程式語言及其應用領域
- 自監督、半監督和有監督全涵蓋,四篇論文遍歷對比學習的研究進展
- 自動化測試為什麼不適合用於遊戲領域?遊戲
- 啟揚 i.MX8M Plus開發板,應用於工業邊緣計算,機器學習與視覺等領域機器學習視覺
- 智慧相機在機器視覺應用領域廣泛視覺
- 【機器學習】李宏毅——Domain Adaptation(領域自適應)機器學習AIAPT
- 資料視覺化領域的6個著名實踐及其原始碼視覺化原始碼
- 圖撲 Web 視覺化引擎在模擬分析領域的應用Web視覺化
- 自監督學習概述
- 適用於PHP的視覺化HTML編輯器推薦PHP視覺化HTML
- 基於句子嵌入的無監督文字摘要(附程式碼實現)
- 機器學習、資料探勘、計算機視覺等領域經典書籍推薦機器學習計算機視覺
- 有監督學習和無監督學習
- 5-監督者和應用程式
- 工業機器人領域機器視覺的四個顯著功能機器人視覺
- 一圖看懂監督學習、無監督學習和半監督學習
- 視覺化語音分析:深度對比Wavenet、t-SNE和PCA等演算法視覺化PCA演算法
- Hinton新作!越大的自監督模型,半監督學習需要的標籤越少模型
- 計算機、數學、運籌學等領域的32個重要演算法計算機演算法
- 低延遲音視訊傳輸技術在直播領域的應用
- 化繁為簡,弱監督目標定位領域的新SOTA - 偽監督目標定位方法(PSOL) | CVPR 2020
- AAAI 2020 | 北大:圖卷積中的多階段自監督學習演算法AI卷積演算法
- 【AI in 美團】深度學習在文字領域的應用AI深度學習