編者按:獲取大規模資料集的高置信標註是一個難點問題,而解決此問題的弱監督學習更貼近人類對世界的認知機制。已有的弱監督影像分類研究,通常侷限於單標籤或者多標籤噪聲場景。本文中,將為大家介紹中科院計算所VIPL組的CVPR2019新作:作者提出了一種基於噪聲正則化的弱監督影像分類方法,透過結合使用大量噪聲標註資料和少量乾淨標註資料(比如5%),提升影像分類效果的同時,在多標籤和單標籤場景中取得了更好的泛化能力。
1.引言
在計算機視覺領域,目前主流的影像分類方法仍然是基於完備標註資料的有監督學習,然而,在實際場景中,完全而精確的影像標籤往往難以獲得。例如,由於知識水平的差異不同的人可能對同一類影像有不同理解,從而給出不一致的標籤。此外,為了降低標註成本,可以利用預訓練模型對採集的大規模資料進行自動標註,但往往會得到大量不準確的標籤,僅僅其中的一小部分資料可以得到人工驗證。然而,傳統的有監督學習方法很難處理這類帶有噪聲標籤的資料。
現有的弱監督影像分類方法通常對於噪聲標籤型別有特定的假設,如單標籤噪聲或者多標籤噪聲。單標籤噪聲假設的分類方法,可以在訓練過程中對於相似的影像進行聚類,而多標籤噪聲假設的分類方法,可以使用標籤與標籤之間的聯絡來增加演算法的魯棒性。儘管這些方法有助於提升模型的效能,但是在一定程度上限制了模型的泛化能力。
為此,在這個工作中,我們關注於提升模型的泛化能力,期待模型可以同時應用於單標籤資料和多標籤資料。我們觀察到儘管現有的方法使用不同的假設輔助分類器學習,核心思想依然在於區分大量噪聲標籤中的可信與不可信的資訊。如圖1所示,一些使用標籤與標籤或者影像與標籤之間關聯的方法,會利用這些關係的正相關或者負相關強度來決定標籤中的可用資訊。
圖表1 利用標籤-標籤關係和影像-標籤關係的噪聲學習方法
因此,我們提出了一種弱監督影像分類的方法,結合使用大量噪聲標註資料和少量乾淨標註資料,透過兩個子網路分別學習噪聲標籤中的可信與不可信的部分,減少了不可信的資訊對模型的影響。我們的方法可以同時應用於單標籤和多標籤資料,並且不依賴於成對的乾淨-噪聲標註資料。我們在兩個多標籤資料集(OpenImage和MS COCO2014)和一個單標籤資料集(Clothing1M)評估了該方法。實驗結果表明,該方法優於現有的最好方法,並在單標籤和多標籤噪聲假設的場景下有很好的泛化能力。
2.方法
圖表 2 方法網路結構示意圖
2.1問題定義
我們的目標是結合利用大量的噪聲標註資料 D_n 和少量的乾淨標註資料 D_c 得到一個魯棒的影像分類模型。在現實場景中,我們可以假設噪聲標註資料的數量 N_n 遠大於乾淨標註資料的數量 N_c。
如圖所示,我們以多工學習的方式進行弱監督影像分類,同時訓練兩個分類器g和h分別擬合乾淨集合中的乾淨標籤和噪聲集合中的噪聲標籤。主幹網路CNN(Backbone CNN)用於學習共享特徵。淨化網路(clean net)用於學習從特徵空間到乾淨標籤空間的對映,殘差網路(residual net)用於學習從特徵空間到標籤殘差(乾淨標籤和噪聲標籤之間)的對映。
分類器g為最終的目標分類器,用於學習對映F_c, 則分類器g可表示為:
分類器h為輔助分類器,用於學習對映 F_r, 則分類器h可表示為:
兩個分類器同時使用了交叉熵損失,表示為:
則總體目標函式為:
2.2 用於噪聲正則化的殘差網路
分類器h可以被看作是g的噪聲正則項的原因是,其工作方式與其他正則項的工作方式類似,都是用於緩解網路的過擬合問題。所提方法中的殘差網路可以建模大量噪聲標註資料中的不可信部分,從而反過來使得分類器g可以利用資料中的可信部分,進而提高分類器的魯棒性。
3.實驗結果
3.1資料集
為了測試所提出方法的有效性,我們在三個資料集上進行了實驗,包括兩個多標籤資料集(MS COCO2014 和 OpenImage) 和一個單標籤資料集(Clothing1M)。
圖表 3資料集資訊
3.2 評測指標
對於多標籤資料,我們選取了平均準確率(mAP) 以及總體準確率(AP_all)。其中平均準確率是針對所有類別的準確率的平均值,而總體準確率是將所有類別看作同一類的準確率結果。
對於單標籤資料,我們選取了top-1準確率作為評測指標。
3.3實驗結果
圖表4 多標籤資料集結果
在MSCOCO和OpenImage資料集上,我們分別選取了5%-20%比例的乾淨標籤和全部的人工確認標籤作為乾淨資料集合。可以看出,與基準方法比較,即使乾淨資料只有5%的比例,我們的方法依然能有較好的效能提升。
圖表 5 單標籤資料集結果
在Clothing1M上,我們的結果與其他SOTA方法相差無幾。然而,CleanNet 和 Forward方法嚴格基於單標籤假設,而我們的模型泛化能力更佳。
圖表6 消融實驗
為了顯示殘差網路的影響,我們比較了不同的訓練方式。可以看出,加入殘差網路,以協同的方式訓練分類器g和h,在OpenImage 和Clothing1M上 可以分別提升1.4%(mAP) 和 4.8% (top-1)。
4.結論
當實際應用中大規模乾淨資料集不可得的時候,利用大規模噪聲標註資料的弱監督影像分類變得很有價值。但是由於噪聲資料中的語義資訊難以準確獲得,導致問題十分具有挑戰性。我們透過提出一種新的可端到端訓練的方法來解決這個問題。該方法由一個淨化網路(clean net) 和一個殘差網路(residual net) 組成,殘差網路透過學習噪聲標籤和乾淨標籤之間的殘差以緩解淨化網路對於乾淨標籤過擬合的風險。多標籤和單標籤資料集的實驗結果表明模型在提升準確率的同時擁有更好的泛化能力。
論文資訊:
Mengying Hu, Hu Han, Shiguang Shan, Xilin Chen, “Weakly Supervised Image Classification through Noise Regularization,” IEEE Conference on Computer Vision and Pattern Recognition (CVPR2019), pp. 11517-11525, Long Beach, California, USA, June 16-20, 2019.
論文連結:
http://openaccess.thecvf.com/content_CVPR_2019/papers/Hu_Weakly_Supervised_Image_Classification_Through_Noise_Regularization_CVPR_2019_paper.pdf
作者簡介