Facebook如何使用自我監督學習檢測仇恨文字和圖片?

banq發表於2021-03-12

預訓練語言模型 XLM之類的自我監督正在加速在Facebook上的應用:包括 主動檢測仇恨言論。我們已經部署XLM-R,該模型利用了我們的 羅伯塔 架構,以改善我們在Facebook和Instagram上使用多種語言的仇恨語音分類器,即使在訓練資料很少的語言中也可以實現仇恨語音檢測。
 
常識可以幫助人們學習新技能,而無需為每項任務進行大量的訓練。例如,如果我們僅向小孩子展示幾頭母牛的圖畫,他們最終將能夠識別出他們看到的任何母牛。相比之下,受過監督學習訓練的AI系統需要許多例項的牛像,並且可能仍然無法在特殊情況下(例如躺在海灘上)對牛進行分類。在幾乎沒有監督的情況下,人們如何在大約20個小時的練習中學會駕駛汽車,而全自動駕駛仍然是一種需要我們參與的AI系統,該系統已經接受了來自人類駕駛員的數千小時資料的訓練。簡短的答案是,人類依賴於他們先前獲得的有關世界運作方式的背景知識。
我們如何讓機器做同樣的事情?
我們相信,自我監督學習(SSL)是建立此類背景知識並近似AI系統中一種常識形式的最有前途的方法之一。自我監督學習使AI系統能夠從數量級中學習更多資料,這對於識別和理解更微妙,更不常見的世界表示形式非常重要。自我監督學習在推動自然語言處理(NLP)領域取得了長足的成功,包括 Collobert-Weston 2008 modelWord2VecGloVEfastText, 還有: BERTRoBERTaXLM-R
與僅以監督方式進行培訓相比,以這種方式進行預培訓的系統所產生的效能要高得多。
 

自我監督學習是預測性學習
自我監督學習通常是利用資料的基礎結構從資料本身獲取監督訊號。自我監督學習的一般技術是根據輸入的任何觀察到的或非隱藏的部分來預測輸入的任何未觀察到的或隱藏的部分(或屬性)。例如,在NLP中很常見,我們可以隱藏句子的一部分,並從其餘單詞中預測隱藏的單詞。
要完成諸如“( 什麼 )在熱帶稀樹草原中追趕(什麼 )”這樣的句子,系統必須瞭解獅子或獵豹可以追捕羚羊或牛羚,但是貓是在廚房而不是熱帶草原中追逐老鼠。訓練的結果是,系統學會了代表單詞的含義,單詞的句法作用以及整個文字的含義。
但是,這些技術不能輕易擴充套件到新領域,例如CV計算機視覺。主要原因是,在影像的預測中表示不確定性比在單詞中表示不確定性要困難得多。當無法準確預測缺失的單詞時(是“獅子”還是“獵豹”?),系統可以將分數或機率與詞彙表中所有可能的單詞相關聯:“獅子”,“獵豹”的高分和其他一些掠食者,詞彙表中所有其他單詞的得分都較低。
但是,當我們預測影片中丟失的幀或影像中缺少的色塊時,我們不知道如何有效地表示不確定性。我們無法列出所有可能的影片幀,也無法將得分與每個影片幀相關聯,因為它們的數量是無限的。
儘管此問題限制了視覺中SSL的效能改進,但諸如SwAV之類的新技術SSL技術開始超越視覺任務中的準確性記錄。SEER系統最好地證明了這一點,該系統使用了經過數十億個示例訓練的大型卷積網路。
 

對預測中的不確定性建模
為了更好地理解這一挑戰,我們首先需要了解預測不確定性及其與CV相比在NLP中建模的方式。在NLP中,預測丟失的單詞涉及計算詞彙表中每個可能單詞的預測分數。雖然詞彙表本身很大,並且預測缺少的單詞會帶來一些不確定性,但可以生成詞彙表中所有可能單詞的列表以及該位置出現單詞的機率估計。典型的機器學習系統透過將預測問題視為分類問題並使用巨大的所謂的softmax層來計算每個結果的分數,從而將原始分數轉換為單詞的機率分佈,從而實現上述目的。
最近,我們 建立並開源一個名為SEER的新的具有十億引數的自我監督CV模型,已被證明可有效處理複雜的高維影像資料。它基於應用於卷積網路體系結構(ConvNet)的SwAV方法,可以從大量隨機影像中進行訓練,而無需任何後設資料或註釋。ConvNet足夠大,可以從龐大而複雜的資料中捕獲和學習每個視覺概念。在對10億張隨機,未標記和未整理的公共Instagram影像進行預訓練並在ImageNet上進行監督微調之後,SEER優於最先進的,最先進的自我監督系統,在ImageNet上的top-1準確性達到了84.2%
這些結果表明,我們可以將自我監督的學習正規化轉變為計算機視覺。
更多點選標題見facebook原文

 

相關文章