拯救深度學習:標註資料不足下的深度學習方法

華為雲開發者社群發表於2020-10-16
摘要:解決深度學習對資料的依賴問題和減少資料標註成本成為了業界的研究熱點。本文將介紹以下幾個研究方向:半監督/弱監督學習、資料合成、主動學習、自監督。

1. 引言

得益於深度學習的發展,許多計算機視覺任務在近幾年取得了不錯的效果。但是,現有的深度學習演算法多是有監督學習演算法,依賴大量人工標記的訓練資料,而標註資料十分耗費人力成本。因此,解決深度學習對資料的依賴問題和減少資料標註成本成為了業界的研究熱點。本文選取了相關領域的部分論文,將介紹以下幾個方向:半監督/弱監督學習;資料合成;主動學習;自監督。

2. 半監督/弱監督學習

半監督學習是監督學習和無監督學習相結合的一種學習方法。半監督/弱監督學習使用大量的未標註資料/弱標註資料,同時使用小部分已標註資料,來訓練機器學習模型。它預期的結果是通過對大部分未標註資料/弱標註資料的利用,得到的模型優於單純只用已標註資料訓練的模型。弱標註資料的資料標籤資訊量較少且標註難度小,比如在目標檢測任務中,通常需要標註目標的類別和座標,弱標註資料則只標註出影像中的目標類別,沒有座標資訊。

論文[1] 是半監督方向的影像分類論文,實驗主要在手寫體影像資料集上進行,包括MNIST、CIFAR等,圖1是該論文方法的架構。如圖所示,圖中左上角和左下角分別是未標註資料集U和已標註L,中間的橘紅色模組是論文的神經網路,右側是資料的篩選模組。流程如下:先使用已標註資料集L訓練得到初始模型M1,然後使用M1在未標註資料集U上進行推理,U中的每張影像都會得到一個分類結果和對應的置信度S。基於S對U中的樣本進行篩選,將分類置信度較高的樣本U1和對應的推理結果當作GT,加入已標註樣本中L=L+U1,繼續訓練模型得到M2。之後重複上述流程,訓練集數量不斷增加,模型效能也逐漸變好。最終得到的模型M效能要遠遠優於只使用L訓練得到的模型M1。

圖1

論文[2]使半監督和弱監督學習在字元級別的文字檢測領域的一篇論文,思想跟[1]類似,也是通過增量學習的方式來boost模型。如圖2所示,使用預訓練的字符集檢測模型對左側的未標註資料集U進行推理,得到檢測結果D。圖2中間上下模組分別表示半監督和弱監督篩選模組。半監督模組通過置信度閾值剔除掉D中檢測不標準的檢測框,弱監督模組帶有“單詞級”的標註框資訊,所以將不在“單詞級”標註框內的字元檢測框剔除掉。之後用兩個模組的輸出結果重新訓練模型。

圖2

論文[3]是使用檢測框標註資訊做分割任務的GAN(generative adversarial network)文章。如圖[3]所示,左側為帶有檢測框資訊的影像,中間為生成器generator,右側為鑑別器discriminator。圖3中間的上支路在原始影像標註框外裁剪出背景區域,下支路從原始影像裁剪出標註框的目標區域,中間的生成器在原圖示註框內生成mask,之後將mask和上下支路的兩張影像結合成fake image,鑑別器需要鑑別影像是真實的還是合成的。通過生成對抗的方式,最後訓練出一個良好的生成器分割網路,而全過程只使用了檢測框標註資訊監督,沒有分割標註資訊參與。

圖3

3. 資料合成

既然有監督學習無法避免模型對標註資料的依賴,那麼自動生成資料也是減少人工成本的一個方式。資料合成的方式很多,包括人工設計規則,使用GAN網路生成等。論文[4]針對文字識別任務提出了基於人工設計規則的合成資料方法。合成的影像樣本由前景影像層、背景影像層、邊緣/陰影層組成,合成步驟分為六步:

font rendering:隨機選擇字型並將文字呈現入前景層;

border/shadow rendering:從前景層的文字中產生邊緣陰影等;

base coloring:給三個圖層填色;

projective distortion:對前景和陰影進行隨機扭曲變換;

natural data blending:將影像跟真實場景影像進行混合;

noise:加入高斯噪聲等。

圖4

利用GAN進行domain adaptation,合成資料也是一個研究方向。主要關注點包括source domain和target domain的appearance和geometry的相似程度。論文[5]則同時考慮兩種相似來做生成對抗。

圖5

4. 主動學習

不同樣本對現有模型的提升幫助是不同的,正如人類的學習過程一樣,只學習小學知識的人很難突破初中知識的瓶頸。主動學習的出發點與此類似,就是希望從未標註資料集中挑選對模型提升幫助最大的子集交給人工標註。因此在標註同樣資料量的樣本的情況下(同樣的標註成本),採用主動學習策略挑選樣本訓練的模型是接近最優的。主動學習的流程如圖6所示,左側的已標註資料集訓練得到模型,模型在未標註資料集上推理,並將標註意義較大的樣本推給人工標註,再將新標註的資料集重新訓練和提升模型。

圖6

主動學習領域定義未標註資料對模型提升幫助的指標包括不確定性、差異性和多樣性等。不確定性指現有模型對該樣本的推理置信度不夠高,差異性指新樣本跟已標註資料集的樣本差異,多樣性則是強調新樣本內部足夠多樣化。在分類問題中,論文[6]是分類任務中的主動學習過程,根據模型對輸入影像的生成patch預測的差異性和不確定度來衡量。論文[7]則強調檢測任務中檢測框的置信度只代表分類置信度,不具有位置置信度,因此提出位置置信度補充評價檢測框的優劣:二階段檢測器中RPN和最終輸出框的差異(圖7),資料擴充後的檢測框與原圖檢測框的差異。

圖7

論文[8]則指出現有主動學習模型大多是task-specific,因此提出了task-agnostic的挑選樣本策略,並在分類、檢測等任務中驗證了實驗。如圖8所示,論文提出了可旁加在主幹任務學習網路的loss預測分支,對未標註資料集進行loss預測,預測loss大的樣本表面模型對它的不確定性高。Loss預測分支在訓練階段時的監督資訊是主幹任務學習網路的loss。

圖8

5. 自監督

自監督學習是無監督學習的一種,近期是學術界的研究熱點。它通過利用無標籤的資料本身的結構或者特性,人為構造標籤出來監督網路學習。通常自監督學習的模型並不直接應用在目標任務上,而是作為下游任務的預訓練模型。論文[9]是自監督學習的一個新進展,使用該論文方法得到的無監督模型,作為預訓練模型在許多下游任務fine-tune後的效果優於使用有監督學習的預訓練模型fine-tune的。圖9(c)是MoCo的演算法圖,(a)(b)表示之前的相關方法。

Contrastive learning是MoCo的出發點,即對輸入樣本做資料擴充得到擴充集,之後在圖中左側encoder輸入,右側encoder輸入或中的樣本,其中是不同於的其他樣本,通過contrastive loss優化網路對相同樣本源的輸入編碼出相似特徵,對不同樣本源的輸入編碼出差異特徵。在該過程中,有兩個關鍵點:計算量不能太大,否則計算資源不允許;右側的encoder提取的特徵k應儘可能是由最新的encoder得到的。圖9(a)分別是使用mini-batch中的一個樣本作為,剩餘樣本作為,好處是每個mini-batch中的k都是最新的,壞處是k的數量太少,受mini-batch限制。圖9(b)則是對所有樣本進行編碼存入memory bank中,並定期更新,好處是k的數量可以不受限制,壞處是的特徵不一定是最新的。MoCo則使用了佇列儲存的特徵,將最新的樣本特徵送入佇列,隊尾的特徵剔除,佇列大小可控,且k基本是最近時期的encoder提取的。

圖9

6. 總結

減少資料標註成本已經成為深度學習領域一個不可迴避的研究課題,一方面,合成資料,讓機器自動標註資料是值得深挖的方向,另一方面,減少神經網路的資料依賴或者能模型認識資料本身的內在結構也尤為重要。更有業界權威人士認為,資料提煉或是人工智慧的下一個突破口。

[1] Yuliang Liu, et al. Automatic labeling of large amounts of handwritten characters with gate-guided dynamic deep learning . PR letters, 2017

[2] Shangxuan Tian1 ,et al. WeText: Scene Text Detection under Weak Supervision.ICCV 2017.

[3] Tal Remez,et al. Learning to Segment via Cut-and-Paste. ECCV, 2018

[4] Tal Remez,et al. Synthetic Data and Artificial Neural Networks for Natural Scene Text Recognition. CVPR,2014

[5] Fangneng Zhan,et al. Spatial Fusion GAN for Image Synthesis. CVPR, 2019

[6] Zongwei Zhou,et al. Fine-tuning Convolutional Neural Networks for Biomedical Image Analysis: Actively and Incrementally. CVPR, 2017

[7] Chieh-Chi Kao,et al. Localization-Aware Active Learning for Object Detection. ACCV, 2018

[8] Donggeun Yoo,et al. Learning Loss for Active Learning. CVPR, 2019

[9] Kaiming He, et al. Momentum Contrast for Unsupervised Visual Representation Learning.CVPR 2020

 

點選關注,第一時間瞭解華為雲新鮮技術~

相關文章