ReLabel：自動將ImageNet轉化成多標籤資料集，更準確地有監督訓練 | 2021新文

曉飛的演算法工程筆記發表於2022-04-28

原文網址 : https://www.cnblogs.com/VincentLee/p/16202528.html

人工標註資料集中普遍存在噪聲，ReLabel能夠自動且低成本地將原本的單標籤資料集轉化為多標籤資料集，並且提出配合random crop使用的高效LabelPooling方法，能夠更準確地指導分類網路的訓練

來源：曉飛的演算法工程筆記公眾號

論文: Re-labeling ImageNet:from Single to Multi-Labels, from Global to Localized Labels

論文地址：https://arxiv.org/abs/2101.05022
論文程式碼：https://github.com/naver-ai/relabel_imagenet

Introduction

ImageNet資料集是影像識別領域很重要的資料集，資料集本身假設圖片中只有一個目標，但是目前發現其中包含了很多噪聲資料，很多圖片實際上可能存在多個類別目標，這種情況就會誤導網路的學習。此外，論文發現常用的Random crop資料增強方法會加劇這一現象，對驗證集的每張圖片進行100次Random crop，統計裁剪圖片與原目標之間的IoU，結果如上面的圖所示，IoU低於0.5的佔比為76.5%，IoU為0的佔比甚至高達8%，這顯然會給訓練帶來極大的干擾。

為了解決這一問題，論文提出ReLabel，通過一個標註網路(machine annotator)取得圖片的pixel-wise多標籤標註\(L\in \mathbb{R}^{H\times W\times C}\)，該標註包含標籤資訊和位置資訊，然後按該多標籤標註資訊將原本的單標籤標註轉化為多標籤標註。論文也提出LabelPooling來配合Random crop使用，根據crop的區域與pixel-wise標註輸出對應的多標籤資訊。區別於知識蒸餾，每張圖片每次都需要forward計算，ReLabel方法僅需要每張圖片進行一次forward計算，後續都是簡單的比例計算，計算量較小。

Re-labeling ImageNet

由於人工標註的成本很高，論文采用了一個標註網路(machine annotator)獲取pixel-wise標註，網路結構可以為任意sota網路，考慮到訓練的耗時，取該網路在Super-ImageNet資料集上預訓練模型，然後在ImageNet上進行fine-tuned。根據交叉熵損失函式的特性，雖然該標註網路是在單標籤資料集上訓練得到的，但由於資料集存在噪聲，這使得網路潛在有多標籤預測的能力。

由於我們希望獲取pixel-wise多標籤標註，將原網路的全域性池化層去掉，並將後續的全連線層替換為\(1\times 1\)卷積層，修改後的網路\(f(x)\)的輸出變為\(L\in \mathbb{R}^{W\times H\times C}\)，這便是我們需要的pixel-wise標註資訊。

Training a Classifier with Dense Multi-labels

在獲得多標籤資訊\(L\)後，訓練時通過Label Pooling獲取訓練目標，如上圖所示，與常規方法的主要區別如下：

常規的訓練步驟不管random crop的結果，均賦予原圖的單標籤。
Label Pooling先獲取圖片對應的pixel-wise多標籤資訊，然後使用RoIAlign對random crop對應的區域進行特徵提取，最後使用全域性池化和softmax操作進行分類，得到多標籤向量\([0,1]^C\)。

使用ReLabel的訓練流程可參考上面的虛擬碼，由於pixel-wise多標籤標註是預先計算好的，所以採用ReLabel帶來額外計算非常小。

Discussion

Space consumption

當使用EfficientNet-L2作為標註網路時，輸入解析度為\(475\times 475\)，輸出的pixel-wise標註資訊大小\(L\in \mathbb{R}^{15\times 15\times 100}\)，儲存所有圖片的完整標註資訊大約需要1TB的儲存。對於每一張圖片，除了top-k類別外，其它類別的pixel-wise標註資訊幾乎都為0，所以可以只需要儲存每張圖片的top-5 pixel-wise標註資訊，大約為10GB，相當於ImageNet資料集大小的10%。