摘要:該論文將同一影像不同視角影像塊內的語義一致的影像區域視為正樣本對,語義不同的影像區域視為負樣本對。
本文分享自華為雲社群《[NeurIPS 2022]基於語義聚合的對比式自監督學習方法》,作者:Hint 。
1.研究背景
近些年來,利用大規模的強標註資料,深度神經網路在物體識別、物體檢測和物體分割任務中取得巨大進展。然而,強標註資料耗時又耗力。為此,自監督學習方法提出從大量的無標註資料中學習出高效的特徵編碼器,然後利用該特徵編碼器在小規模資料上進行強監督訓練,以此達到和在大規模強標註資料上訓練的模型相當的效能。基於對比式自監督學習方法的出發點為:從不同視角來觀察影像,將來自同一影像的不同視角的影像塊視為正樣本對,來自不同影像的影像塊視為負樣本對,透過拉近正樣本對的特徵的距離,拉遠負樣本對的特徵的距離來監督特徵編碼器的學習。
然而,以上方法的基本假設(正樣本對,即同一影像的不同視角的影像塊,具有相同的語義)在以物體為中心的資料集(ImageNet)中成立,在以場景為中心的資料集(同一影像中包含多個物體,如COCO)中難以成立。為此,該論文將同一影像不同視角影像塊內的語義一致的影像區域視為正樣本對,語義不同的影像區域視為負樣本對。
2.方法
本文方法和MoCo的框架類似,不同的是,本文將每類物體定義為一個可學習的類別向量S,根據類別向量S和影像特徵圖的每個位置計算相識度,聚合影像中同一類別的特徵,然後將聚合後的類別特徵構成正負樣本對來進行對比訓練學習。具體的網路結構如圖1所示,其步驟包括:
- 同一影像經過資料增強得到不同的視角影像塊,並分別輸入影像編碼器得到特徵圖;
- 將類別特徵向量S和影像特徵圖計算每個位置的相似度,並根據相似度聚合得到影像中每個類別的特徵;
- 得到兩個視角下的聚合的類別特徵後,拉近同類別特徵間的距離,拉遠不同類別特徵之間的距離;
- 與此同時,拉近兩個視角下,重疊影像區域的特徵間的距離。
經過迭代訓練後,影像特徵編碼器能夠建模不同類別之間的語義特徵,使得影像編碼器更魯棒。
圖1:SlotCon的流程圖
3.實驗結果:
主要實驗結果如下表所示,可以看出,無論在目標檢測還是分割任務上,該方法高出當前Image-level和Pixel-level的方法許多,證明了基於Object/Group-level的方法的優越性。另外,和Object/Group-level的方法相比,能夠高出SOTA方法1.0%左右,表明了本文中可學習語義聚合方法的優勢。
圖2展示了無監督分割的定量和定性結果,該方法在此任務上取得不錯效能。其mIoU值高出當前無監督分割方法3.92%。
圖2:無監督語義分割
圖3展示了類別向量S和影像特徵之間的相似度。可以看出,學習出的類別向量和影像中相應類別物體具有較高的相似度,說明影像特徵編碼器編碼了較高的語義特徵。
圖3:類別特徵向量S和影像特徵間的相似度,紅色區域為相似度較高區域
論文連結:[2205.15288] Self-Supervised Visual Representation Learning with Semantic Grouping (arxiv.org)