從多模態到泛化性,無監督學習如何成為人工智慧的下一站?

AIBigbull2050發表於2020-09-03
2020-08-31 23:13:45

從多模態到泛化性,無監督學習如何成為人工智慧的下一站?

作者 | 彩嫻、青暮、寶尚

編輯 | 大鑫

2016年,圖靈獎得主Yann LeCun 表示,未來幾年的挑戰是讓機器學會從原始的、沒有標籤的資料中學習知識,即無監督學習。Yann LeCun提出,無監督學習是人工智慧的下一站。

2020年,圖靈獎得主Geoffrey E. Hinton指出,人類無法完全依賴有監督學習的方法完成所有神經元訓練,而需要更多來自於無監督學習的幫助。

目前無監督學習技術備受關注,無監督表達學習技術在自然語言處理領域進展神速,OpenAI 近期釋出的包含1700億引數的GPT-3預訓練模型吸引了全世界的目光;無監督圖嵌入表達技術在圖學習領域取得了不俗的成果;自監督學習技術在視覺領域近期也有較大的突破,Geoffrey E. Hinton 等谷歌研究者的最新研究一次就把無監督學習的指標提升了 7-10%,甚至可以媲美有監督學習的效果。

但我們同時也看到,對GPT-3的質疑聲一直不斷,無監督學習技術在更多的領域尚待突破。

2020年8月22日,中國計算機學會青年計算機科技論壇深圳分論壇主辦大灣區IT創新論壇“無監督學習,如何成為人工智慧的下一站?”。

從多模態到泛化性,無監督學習如何成為人工智慧的下一站?

本次論壇吸引了超過1千人透過線下會場、騰訊會議及B站全程參與,包括涉及表達學習、自然語言處理、計算機視覺分析、資料探勘、金融大資料處理等眾多相關領域的青年學者、相關行業從業者及在讀學生,共同思辨無監督學習技術如何真的能成為人工智慧的下一站。

在論壇的思辨環節,大家充分交流了自己對無監督學習當前發展及未來趨勢的看法,並圍繞三個議題展開了精彩的討論。這三個議題分別對應於無監督的益處、多模態場景和魯棒性。

以下是邀請嘉賓及參與者的相關論點,AI科技評論進行了不改變原意的整理。

除了影像與影片的識別、檢測與分割,其實視覺領域還有許多子任務,比方說:底層任務有影像的修復,中層任務有檢測影像深度的估計,更上一層的任務包括影像裡物體之間的關係預測,以及從影像到語句的生成或者視覺問答等等。

各種各樣的視覺任務都非常依賴於視覺特徵的表達。自深度學習崛起後,由於在下游的任務中不可能蒐集關於該任務的各種特定的資料進行訓練,所以視覺特徵的表達越來越依賴於預訓練的模型。

預訓練模型指的是一個已訓練好的、儲存下來的網路,該網路通常已在一些大型資料集上進行了訓練。目前一些比較著名的預訓練模型包括:計算機視覺領域的VGG16、Mask R-CNN和自然語言處理領域的BERT、GPT-3等等。

在視覺的預訓練模型上,2009年出現了一個大規模資料集——ImageNet,所以大家普遍使用在ImageNet上的預訓練模型,然後再在其他子任務上進行訓練。

但是,透過ImageNet進行預訓練的模型存在一些缺陷:1)預訓練依賴ImageNet,但ImageNet的資料量畢竟是有限的;2)ImageNet的標籤是人工設計的,因此可能存在著一些資料的偏差;3)關於下游任務(即前面提到的各種各樣的視覺任務),不同的下游任務有不同的特性,那麼在ImageNet上預訓練的模型在處理不同的下游任務時,可能會表現出不同的能力與特徵;4)ImageNet資料集由人工來打標籤,需要耗費巨大的人力物力,資料的擴充套件非常困難,而且預訓練模型的訓練與人的學習機制是相違悖的,人的學習不依賴於大量的標籤資料來實現泛化能力。

因此,近幾年,研究人員逐漸轉向利用無監督或自監督的方法去學習更好的預訓練模型。在視覺領域,自監督模型的核心思想是設計各種各樣的前置任務(pre-tasks)。這種前置任務可以是基於生成式的,也可以是基於判別式的。

基於生成式的前置任務是說:抹掉圖的部分內容,然後去預測所抹掉的部分;或是把圖轉成灰色圖,去預測圖的彩色模樣;或是觀察影片的前幾幀,去預測這段影片的下一幀。例如,Image GPT是像語句一樣把影像看作一個畫素的序列,透過基於前面的畫素去預測後面的畫素。

另一種是基於判別式的,即設計一個分類任務,把一張圖打散成塊狀,然後去預測序列的分類。或者是,對影像做一些更改,然後判別影像經過了哪幾種不同的變化。根據現在的研究,在分類任務上,基於判別式的預訓練模型所取得的結果比基於生成式的預訓練模型更好。近幾年,關於對比學習的方法(基於三元組分類的方式)受到了廣泛關注,它比生成式的方法取得了更好的效能。

根據最新的NeurIPS投稿,在影像分類方面,基於自監督的預訓練模型的準確率與基於全監督ImageNet的預訓練模型的準確率差距(gap)縮小到了大約2%以內。在影片方面,自監督預訓練一般是用影片的前幾幀去預測影片的下一幀,這時,自監督模型與全監督模型之間的的gap比影像分類任務要大一些。

進一步的研究發現,如果把影片的預訓練資料擴充套件到多模態資料,例如影片加上聲音或各種語言,然後再去設定前置任務,這時候預訓練的模型在執行影片的下游任務時,效能可能會更好一點,gap大概可以縮小到5%以內。

總的來說,這種基於自監督的預訓練模型是當前視覺領域的研究熱點之一,預計在未來也會慢慢替代基於監督的預訓練模型。

1無監督學習的益處

議題一:哪些領域更可能從無監督預訓練模型中受益?無監督預訓練模型的學習偏見如何解決?

使用無監督預訓練模型的最主要領域是CV和NLP,在CV和NLP領域裡面,哪些細分領域更可能從無監督預訓練模型中受益呢?以及無監督預訓練模型的學習偏見如何解決?

從CV角度來看,剛剛提到,自監督的預訓練模型在執行影像分類時最好的研究結果是,與監督預訓練模型之間的Gap只有2%。但最近Facebook提出了一個最新的模型叫MoCo(動量對比學習)。研究人員發現,雖然自監督預訓練模型比基於全監督的模型相差2%的gap,但在執行CV的下游任務(包括影像的分割、檢測與小樣本學習)時,自監督預訓練模型比基於全監督的預訓練模型表現更好。也就是說,雖然自監督在ImageNet的分類任務上沒有表現地特別好,但它比監督模型更適合執行下游任務,普適性和魯棒性更佳。

從NLP角度來看,更好的泛化性也存在。現在的大趨勢是:如果不使用大規模的無監督學習方法,基本上研究就無法繼續。在NLP領域,所有的問題都得從大規模無監督模型開始,然後基於無監督模型進行後續的任務,否則效能肯定上不去。所以結論是:NLP領域的所有研究問題基本上都會受益於無監督預訓練模型,但無監督模型在實際應用系統上的表現則帶有不確定性,因為涉及到許多其他方面。

從深度聚類角度來看,影響聚類效能的要素在於特徵表示。但有一個問題是:在聚類的過程中,因為沒有標籤,所以沒有辦法繼續對損失進行定義。在這個過程中,我們一般是先基於一個模型對輸入進行初始化,然後基於效能好的autoencoder來學習聚類中心。

如果聚類中心和特徵同時學習,模型可能會漂移,而且不知道會漂到什麼地方。所以,在預訓練過程中,要先只學習一個聚類中心,然後保持中心不變,再去學特徵。就相當於,在一開始,透過預訓練得到一箇中心,然後把這個聚類中心固定,再透過預訓練來學習特徵表達,最後用特徵表達做聚類。

此外,無監督預訓練的偏見問題產生,涉及到很多因素,比如樣本沒有選好。最近有研究發現,在無監督預訓練中,資料並不是越多越好。要根據任務細心選擇資料,使訓練樣本和目標樣本的匹配度更高。否則的話,就算資料量達到了要求,但進行預訓練之後,它的效果反而會下降。

對於模型偏見,可以透過引入一個重構誤差,然後用重構誤差和聚類損失的折中來限制特徵學習。就是說,不要為了減少損失而跑偏,最後導致聚類結果反而不好。我們可以用新知識,比如重構誤差,來限制模型的學習,防止在訓練過程中跑偏。

2多模態場景

議題二:無監督學習技術如何促進多模態場景下不同領域之間知識的互動以提升效能?

真實的資料不只涉及文字,還有語音、影片等等,在這種多模態場景下,我們會思考無監督學習技術的應用。不同領域的知識一定要進行互動,只有互動才能引入其它領域的知識來提高任務的效能,那麼,無監督學習技術如何促進不同領域知識之間的互動,最終提升效能呢?

從多模態到泛化性,無監督學習如何成為人工智慧的下一站?

無監督的跨模態資料對齊,是多種模態資料或者領域知識互動的橋樑。在多模態應用場景,進行視覺、語言處理或者更深入的將視覺與語言結合在一起的資料探勘時,對於同一個實體或者描述同一個事件,可以從多個不同的角度,採集多模態的資料,不同的模態資料能從不同的角度刻畫該實體或事件。

通常的做法是融合來自多個模態的場景資料,以得到更好的結果。相關演算法通常稱為多檢視學習和多模態學習,但挑戰在於,在不同模態採集的資料不一定是對齊好的。比如影片、語音、文字、社交網路資料,它們之間可能存在一定的錯配或者缺失。

所以要對多模態資料進行融合,首先得判斷資料之間是否已經對齊。比如多模態資料、多檢視資料或者網路資料,可以透過學習資料的低秩表示,再透過互資訊的方式建立一個目標函式,把不同模態、檢視或網路的對應關係找出來。如果能找出來,不同模態之間的資料互動或者領域知識互動就成功了。

其實,在缺乏監督資訊情況下,無監督學習對多模態資料對齊的解決相當於在無監督情況下對資料進行分類。

此外,利用已經配對良好的資料進行監督預訓練,比如新聞和紀錄片等資料,再泛化到其它資料進行無監督的對齊也是一個很好的研究方向。

更廣泛地說,在弱標註資料下,透過多模態資料之間的協同訓練,在效能上會有很大的促進作用。

3泛化性

議題三:無監督學習技術如何提升人工智慧技術的魯棒性及安全性?

眾所周知,深度神經網路在一般情況下效能良好,被廣泛運用到各種應用中,但它其實並不魯棒。一個典型的例子是對抗攻擊,即在圖片中新增一些肉眼不可覺察的噪聲,就可以使得網路出現錯誤的判別結果。

從多模態到泛化性,無監督學習如何成為人工智慧的下一站?

對抗攻擊不僅可以對分類任務產生影響,其對所基於的DNN任務(例如分割、追蹤等)都有影響,具有嚴重的威脅。為了應對這種問題,現在人們也開發了各種防禦的方法。

目前,最有效的防禦方式還是對抗訓練,即在訓練過程中引入對抗樣本要求模型對於對抗攻擊有足夠的魯棒性。然而,最近的研究表明,對抗訓練需要更多的資料,即當資料集的大小保持不變的時候,對抗訓練在提升模型魯棒性的同時會犧牲一些精度。

那麼能否用無標籤的資料提升模型的魯棒性呢?畢竟,有標籤的資料獲取難度比較大。這裡需要解決的核心問題是損失函式,因為原始對抗訓練的損失函式是有目標的。直觀上來說,對抗損失要求模型在一個區域內的預測都是正確的預測,這大概可以分解為兩個任務:一個是要求模型在原始樣本上足夠正確,另一個是要求模型在原始樣本的鄰域內的輸出足夠魯棒(穩定)。根據把原始對抗損失替換為標準損失與魯棒損失的方式,我們可以在魯棒損失中引入無標籤樣本,同時提升模型的精度與魯棒性。那麼除了改造損失函式,還有哪些方法能夠引入無標籤樣本?這也是值得進一步思考的問題。

當然,除了對抗訓練外,也有很多別的防禦方法。例如在預測前對影像先進行預處理,試圖破壞甚至是去除對抗噪聲。這種防禦思路被稱為基於預處理的防禦,目前也有大量的學者在爭論這種防禦方式究竟是否有效。此外,基於檢測型別的防禦,即先透過異常檢測,確定資料中是否為對抗樣本,也是另一類重要的防禦方法。

當然,儘管深度神經網路對對抗噪聲不魯棒,但其魯棒性也並沒有想象中那麼糟糕。如果資料中只是新增一些隨機噪聲,一般並不會影響模型的結果。





來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2716819/,如需轉載,請註明出處,否則將追究法律責任。

相關文章