Facebook如何使用自我監督學習檢測仇恨文字和圖片?
預訓練語言模型 XLM之類的自我監督正在加速在Facebook上的應用:包括 主動檢測仇恨言論。我們已經部署XLM-R,該模型利用了我們的 羅伯塔 架構,以改善我們在Facebook和Instagram上使用多種語言的仇恨語音分類器,即使在訓練資料很少的語言中也可以實現仇恨語音檢測。
常識可以幫助人們學習新技能,而無需為每項任務進行大量的訓練。例如,如果我們僅向小孩子展示幾頭母牛的圖畫,他們最終將能夠識別出他們看到的任何母牛。相比之下,受過監督學習訓練的AI系統需要許多例項的牛像,並且可能仍然無法在特殊情況下(例如躺在海灘上)對牛進行分類。在幾乎沒有監督的情況下,人們如何在大約20個小時的練習中學會駕駛汽車,而全自動駕駛仍然是一種需要我們參與的AI系統,該系統已經接受了來自人類駕駛員的數千小時資料的訓練。簡短的答案是,人類依賴於他們先前獲得的有關世界運作方式的背景知識。
我們如何讓機器做同樣的事情?
我們相信,自我監督學習(SSL)是建立此類背景知識並近似AI系統中一種常識形式的最有前途的方法之一。自我監督學習使AI系統能夠從數量級中學習更多資料,這對於識別和理解更微妙,更不常見的世界表示形式非常重要。自我監督學習在推動自然語言處理(NLP)領域取得了長足的成功,包括 Collobert-Weston 2008 model, Word2Vec, GloVE, fastText, 還有: BERT, RoBERTa, XLM-R,
與僅以監督方式進行培訓相比,以這種方式進行預培訓的系統所產生的效能要高得多。
自我監督學習是預測性學習
自我監督學習通常是利用資料的基礎結構從資料本身獲取監督訊號。自我監督學習的一般技術是根據輸入的任何觀察到的或非隱藏的部分來預測輸入的任何未觀察到的或隱藏的部分(或屬性)。例如,在NLP中很常見,我們可以隱藏句子的一部分,並從其餘單詞中預測隱藏的單詞。
要完成諸如“( 什麼 )在熱帶稀樹草原中追趕(什麼 )”這樣的句子,系統必須瞭解獅子或獵豹可以追捕羚羊或牛羚,但是貓是在廚房而不是熱帶草原中追逐老鼠。訓練的結果是,系統學會了代表單詞的含義,單詞的句法作用以及整個文字的含義。
但是,這些技術不能輕易擴充套件到新領域,例如CV計算機視覺。主要原因是,在影像的預測中表示不確定性比在單詞中表示不確定性要困難得多。當無法準確預測缺失的單詞時(是“獅子”還是“獵豹”?),系統可以將分數或機率與詞彙表中所有可能的單詞相關聯:“獅子”,“獵豹”的高分和其他一些掠食者,詞彙表中所有其他單詞的得分都較低。
但是,當我們預測影片中丟失的幀或影像中缺少的色塊時,我們不知道如何有效地表示不確定性。我們無法列出所有可能的影片幀,也無法將得分與每個影片幀相關聯,因為它們的數量是無限的。
儘管此問題限制了視覺中SSL的效能改進,但諸如SwAV之類的新技術SSL技術開始超越視覺任務中的準確性記錄。SEER系統最好地證明了這一點,該系統使用了經過數十億個示例訓練的大型卷積網路。
對預測中的不確定性建模
為了更好地理解這一挑戰,我們首先需要了解預測不確定性及其與CV相比在NLP中建模的方式。在NLP中,預測丟失的單詞涉及計算詞彙表中每個可能單詞的預測分數。雖然詞彙表本身很大,並且預測缺少的單詞會帶來一些不確定性,但可以生成詞彙表中所有可能單詞的列表以及該位置出現單詞的機率估計。典型的機器學習系統透過將預測問題視為分類問題並使用巨大的所謂的softmax層來計算每個結果的分數,從而將原始分數轉換為單詞的機率分佈,從而實現上述目的。
最近,我們 建立並開源一個名為SEER的新的具有十億引數的自我監督CV模型,已被證明可有效處理複雜的高維影像資料。它基於應用於卷積網路體系結構(ConvNet)的SwAV方法,可以從大量隨機影像中進行訓練,而無需任何後設資料或註釋。ConvNet足夠大,可以從龐大而複雜的資料中捕獲和學習每個視覺概念。在對10億張隨機,未標記和未整理的公共Instagram影像進行預訓練並在ImageNet上進行監督微調之後,SEER優於最先進的,最先進的自我監督系統,在ImageNet上的top-1準確性達到了84.2%。
這些結果表明,我們可以將自我監督的學習正規化轉變為計算機視覺。
更多點選標題見facebook原文
相關文章
- 一圖看懂監督學習、無監督學習和半監督學習
- 如何結合文字特徵檢測仇恨和攻擊性語言特徵
- 機器學習——監督學習&無監督學習機器學習
- 【ML吳恩達】3 有監督學習和無監督學習吳恩達
- 基於自編碼器的表徵學習:如何攻克半監督和無監督學習?
- 監督學習
- Facebook AI 108頁ppt 講述自監督學習在最新AI
- 自監督學習
- 機器學習:監督學習機器學習
- 003.00 監督式學習
- 自監督學習概述
- 監督學習,無監督學習常用演算法集合總結,引用scikit-learn庫(監督篇)演算法
- 監督學習or無監督學習?這個問題必須搞清楚
- 監督學習基礎概念
- 監督學習之迴歸
- 有監督學習——梯度下降梯度
- 自監督、半監督和有監督全涵蓋,四篇論文遍歷對比學習的研究進展
- 吳恩達《Machine Learning》精煉筆記 1:監督學習與非監督學習吳恩達Mac筆記
- 開發規範文字(自我學習)
- 監督學習之支援向量機
- 無監督學習之降維
- 非監督學習最強攻略
- 有監督學習——高斯過程
- AAAI 2020 | 基於多工自監督學習的文字順滑研究AI
- 基於多模態對抗學習的無監督時間序列異常檢測
- 機器學習--有監督學習--分類演算法(預測分類)機器學習演算法
- 因果推理和監督學習的統一概念框架框架
- 監督學習之高斯判別分析
- 【半監督學習】MixMatch、UDA、ReMixMatch、FixMatchREM
- 有監督學習——線性迴歸
- 邱錫鵬 神經網路與深度學習課程【十三】——無監督學習和概率圖模型1神經網路深度學習模型
- 機器學習--有監督學習--演算法整理機器學習演算法
- 【機器學習基礎】無監督學習(1)——PCA機器學習PCA
- 【機器學習基礎】半監督學習簡介機器學習
- 【機器學習】李宏毅——自監督式學習機器學習
- 【機器學習基礎】無監督學習(3)——AutoEncoder機器學習
- 【機器學習基礎】無監督學習(2)——降維之LLE和TSNE機器學習
- Hinton新作!越大的自監督模型,半監督學習需要的標籤越少模型