解決AI的小資料問題

AIBigbull2050發表於2020-02-12

解決AI的小資料問題


對深度學習演算法,如果沒有足夠多的資料進行訓練,有兩種方法可以解決這個問題:生成合成資料,或者開發可利用小資料展開工作的 AI 模型。

眾所周知,深度學習需要資料,其模型訓練都是在大量標記資料的基礎上進行的,比如,利用數以百萬計的動物標記影像訓練 AI 學會識別。但大量標記資料對某些應用來說並不適用,在這種情況下,從頭開始訓練一個 AI 模型,即使可能,也充滿了困難。

一個潛在的解決方案是用合成資料擴充真實資料集。這在自動駕駛領域得到了廣泛的應用。自動駕駛汽車在逼真的模擬環境中行駛數百萬英里,會面臨暴風雪以及行人突發行為等各種情況,而針對這些情況,我們很難獲取到真實資料。

圍繞資料問題的另一種解決方案是開發能夠基於小資料集進行學習的 AI 模型。一種名為遷移學習(transfer learning)的方法已在計算機視覺任務中得到應用。該方法使用預先訓練的 AI 演算法來執行一個有大量標記資料的任務(如識別影像中的汽車),然後將該知識轉移到另一個資料很少的不同任務上(如識別卡車)。使用預先訓練的模型就像包餃子時使用現成的餃子皮,免去了和麵的步驟。

雖然預先訓練的模型在計算機視覺領域已經取得了長足的發展,但在自然語言處理(NLP)領域,由於缺乏標記資料,到目前為止,一直是一項極具挑戰的工作。不過,一種名為自我監督預訓練(self-supervised pre-training)的方法在自然語言處理領域中逐漸流行起來。

所謂自我監督預訓練,首先要根據網路上的大量資料訓練 AI 模型。例如,OpenAI 進行了一項計算極其密集的任務:用 800 萬個網頁作為訓練資料,訓練一個基於給定文字預測下一文字詞彙的 AI 模型。這一方法被稱為自我監督學習,因為這裡不涉及“標籤”:AI 透過基於句子中的其他單詞預測一個隱藏的單詞來學習語言。

另一個典型的例子是谷歌 BERT,其 AI 語言模型不僅可以根據前文內容進行預測,還可以基於後文展開,也就是說該模型採用了雙向語言模型的方式,能夠更好的融合前後文的知識。

由 Yann LeCun 領導的 Facebook AI 研究部門一直都看好自我監督。比如,他們首先會訓練出一個語言模型(類似上文),然後進行預訓練,並對其進行微調以進行仇恨言論的識別。

最近,Facebook 還開源了其自我監督語音識別模型,很好地解決了小型研究專案對人工標記文字的需求問題。非英語語言的標註訓練資料往往數量有限,針對這個問題, Facebook 開源了程式碼 wav2vec,這對非英語語言的語音識別尤其有用。






來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2675284/,如需轉載,請註明出處,否則將追究法律責任。

相關文章