Facebook ICCV論文:利用傳遞不變性的自監督視覺表徵學習

路雪發表於2017-08-14

透過自監督學習學習視覺表徵在計算機視覺領域逐漸開始流行。本文提出可透過不變性的傳遞實現視覺表徵自監督學習,該網路在多種識別任務中均表現不俗,在表面正常評估任務中的表現甚至優於 ImageNet 網路。

論文:Transitive Invariance for Self-supervised Visual Representation Learning

Facebook ICCV論文:利用傳遞不變性的自監督視覺表徵學習

連結:https://arxiv.org/abs/1708.02901

透過自監督學習學習視覺表徵在計算機視覺領域逐漸開始流行。該方法是為了設計可隨意獲取標籤的輔助任務。大多數輔助任務最終將提供資料來學習特定種類的有助於識別的不變性(invariance)。在本論文中,我們提出利用不同的自監督方法學習表徵,這些表徵與 (i) 例項間變體(inter-instance variation,相同類別的兩個物件應該具備相似的特徵)、(ii) 例項內變體(intra-instance variation,視角、姿勢、變形、亮度等)無關。我們沒有將這兩種方法與多工學習聯結起來,而是組織和推理具備多種不變性的資料。具體來說,我們提出使用從成百上千個影片中挖掘出的數百萬個物件生成一個圖。這些物件由分別對應兩種不變性的兩種邊緣(edge)聯結起來:「具備相似的觀點和類別的不同例項」和「相同例項的不同觀點」。透過將簡單的傳遞性(transitivity)應用到帶有這些邊緣的圖上,我們能夠獲取具備更加豐富視覺不變性的成對影像。我們使用這些資料訓練帶有 VGG16 的 Triplet-Siamese 網路作為基礎架構,將學得的表徵應用到不同的識別任務中。關於物體檢測,我們使用 Fast R-CNN 在 PASCAL VOC 2007 資料集上達到了 63.2% mAP(ImageNet 的預訓練結果是 67.3%)。而對於有難度的 COCO 資料集,使用我們的方法得出的結果(23.5%)與 ImageNet-監督的結果(24.4%)驚人地接近。我們還證明了我們的網路在表面正常評估(surface normal estimation)任務中的表現優於 ImageNet 網路。

Facebook ICCV論文:利用傳遞不變性的自監督視覺表徵學習


圖 1:我們提出使用簡單的傳遞關係獲取豐富的不變性。在該示例中,兩輛不同的汽車 A 和 B 被有利於例項間不變性的特徵聯結起來;每輛車透過視覺追蹤與另一個視角(A′和 B′)聯絡起來。之後,我們能夠藉助傳遞性從物體對〈A, B′〉、〈A′, B〉和〈A′, B′〉中獲取新的不變性。

Facebook ICCV論文:利用傳遞不變性的自監督視覺表徵學習


圖 2:圖構建描述。我們首先將物體節點聚集到更加粗糙的叢集(叫作「父」叢集),然後我們在每個叢集內執行最近鄰搜尋(nearest-neighbor search)來得到包含 4 個樣本的「子」叢集。每個子叢集內的樣本透過「例項內」邊緣互相聯結。我們透過視覺追蹤增加新樣本,並透過「例項間」邊緣將其與原始物體聯結起來。

Facebook ICCV論文:利用傳遞不變性的自監督視覺表徵學習

圖 5:訓練網路所用樣本。每一列是一系列影像塊 {A, B, A′, B′}。這裡,A 和 B 透過例項間邊緣聯結,而 A′/B′與 A/B 透過例項內邊緣聯結。

Facebook ICCV論文:利用傳遞不變性的自監督視覺表徵學習

圖 6:我們的 Triplet-Siamese 網路。我們向該網路輸入樣本的不同聯結。

Facebook ICCV論文:利用傳遞不變性的自監督視覺表徵學習

圖 7:PASCAL VOC 資料集上的最近鄰搜尋。我們抽取三種特徵:(a)語境預測網路,(b)使用我們的自監督方法訓練的網路,(c)標註 ImageNet 資料集中預訓練的網路。我們證明我們的網路可以展示出相同類別物體的更多種類(如視角)。


相關文章