人工標註資料集中普遍存在噪聲,ReLabel能夠自動且低成本地將原本的單標籤資料集轉化為多標籤資料集,並且提出配合random crop使用的高效LabelPooling方法,能夠更準確地指導分類網路的訓練
來源:曉飛的演算法工程筆記 公眾號
論文: Re-labeling ImageNet:from Single to Multi-Labels, from Global to Localized Labels
Introduction
ImageNet資料集是影像識別領域很重要的資料集,資料集本身假設圖片中只有一個目標,但是目前發現其中包含了很多噪聲資料,很多圖片實際上可能存在多個類別目標,這種情況就會誤導網路的學習。此外,論文發現常用的Random crop資料增強方法會加劇這一現象,對驗證集的每張圖片進行100次Random crop,統計裁剪圖片與原目標之間的IoU,結果如上面的圖所示,IoU低於0.5的佔比為76.5%,IoU為0的佔比甚至高達8%,這顯然會給訓練帶來極大的干擾。
為了解決這一問題,論文提出ReLabel,通過一個標註網路(machine annotator)取得圖片的pixel-wise多標籤標註\(L\in \mathbb{R}^{H\times W\times C}\),該標註包含標籤資訊和位置資訊,然後按該多標籤標註資訊將原本的單標籤標註轉化為多標籤標註。論文也提出LabelPooling來配合Random crop使用,根據crop的區域與pixel-wise標註輸出對應的多標籤資訊。區別於知識蒸餾,每張圖片每次都需要forward計算,ReLabel方法僅需要每張圖片進行一次forward計算,後續都是簡單的比例計算,計算量較小。
Re-labeling ImageNet
由於人工標註的成本很高,論文采用了一個標註網路(machine annotator)獲取pixel-wise標註,網路結構可以為任意sota網路,考慮到訓練的耗時,取該網路在Super-ImageNet資料集上預訓練模型,然後在ImageNet上進行fine-tuned。根據交叉熵損失函式的特性,雖然該標註網路是在單標籤資料集上訓練得到的,但由於資料集存在噪聲,這使得網路潛在有多標籤預測的能力。
由於我們希望獲取pixel-wise多標籤標註,將原網路的全域性池化層去掉,並將後續的全連線層替換為\(1\times 1\)卷積層,修改後的網路\(f(x)\)的輸出變為\(L\in \mathbb{R}^{W\times H\times C}\),這便是我們需要的pixel-wise標註資訊。
Training a Classifier with Dense Multi-labels
在獲得多標籤資訊\(L\)後,訓練時通過Label Pooling獲取訓練目標,如上圖所示,與常規方法的主要區別如下:
- 常規的訓練步驟不管random crop的結果,均賦予原圖的單標籤。
- Label Pooling先獲取圖片對應的pixel-wise多標籤資訊,然後使用RoIAlign對random crop對應的區域進行特徵提取,最後使用全域性池化和softmax操作進行分類,得到多標籤向量\([0,1]^C\)。
使用ReLabel的訓練流程可參考上面的虛擬碼,由於pixel-wise多標籤標註是預先計算好的,所以採用ReLabel帶來額外計算非常小。
Discussion
Space consumption
當使用EfficientNet-L2作為標註網路時,輸入解析度為\(475\times 475\),輸出的pixel-wise標註資訊大小\(L\in \mathbb{R}^{15\times 15\times 100}\),儲存所有圖片的完整標註資訊大約需要1TB的儲存。對於每一張圖片,除了top-k類別外,其它類別的pixel-wise標註資訊幾乎都為0,所以可以只需要儲存每張圖片的top-5 pixel-wise標註資訊,大約為10GB,相當於ImageNet資料集大小的10%。
Time consumption
ReLabel需要將ImageNet中每張圖片進行一次前向計算,大約耗費10 GPU/時,相當於ResNet-50完整訓練時間的3.3%。在每個迭代,LabelPooling大約增加每次迭代的0.5%的額外耗時,而知識蒸餾每輪迭代都要teacher網路進行一次完整的前向計算,耗時相當大。
Which machine annotator should we select?
不同標註網路對ReLabel的效果影響很大,論文對比了多種網路結構,結果如上圖所示,最終論文選擇了EfficientNet-L2作為標註網路。
Factor analysis of ReLabel
ReLabel是多標籤和pixel-wise的,為了對比這兩個特性的必要性,增加了以下三種實現的對比:
- Localized single labels:跟ReLabel的步驟一樣,最後取softmax分數最大的標籤,而非多標籤。
- Global multi-labels:不使用RoIAlign,直接將完整的標註資訊進行全域性池化,最後取多標籤。
- Global single labels:不使用RoIAlign,直接將完整的標註資訊進行全域性池化,最後softmax分數最大的標籤。
結果如上圖所示,論文提出的ReLabel實現方式效果最好。
Confidence of ReLabel supervision
論文也對ReLabel在不同IoU情況下的監督能力進行了探討,記錄5百萬張random crop的圖片與GT的IoU以及ReLabel輸出的最大標籤分數,結果如上圖所示,標籤分數與IoU正相關。當IoU非常小時,標籤分數也非常小,這就相當於給網路訓練提供了一個訓練目標不確定的訊號。
Experiments
多標籤pixel-wise標註資訊的視覺化。
與其它標籤監督方法對比。
對不同網路結構的效能提升。
搭配其它訓練技巧的效果。
與知識蒸餾的耗時對比。
作為目標檢測主幹網路的表現。
Conclusion
人工標註資料集中普遍存在噪聲,ReLabel能夠自動且低成本地將原本的單標籤資料集轉化為多標籤資料集,並且提出配合random crop使用的高效LabelPooling方法,能夠更準確地指導分類網路的訓練。
如果本文對你有幫助,麻煩點個贊或在看唄~
更多內容請關注 微信公眾號【曉飛的演算法工程筆記】