論文筆記:What makes instance discrimination good for transfer learning?

Jesse_劉嘉軒發表於2020-12-23

論文筆記:What makes instance discrimination good for transfer learning?

這是一篇很有意思的論文,站在監督/無監督/遷移學習的角度討論的,不過在這篇論文的閱讀之前需要一部分遷移學習的基礎來幫助更好的理解論文,那麼下面開始把。


abstract:

無監督的視覺基於instance discrimination的pretext task已經取得了巨大的成果。值得注意的事情是最近的基於無監督的pretraining已經超過了有監督的pretraining已經超過了有監督的pretraining,通過finetuning的下游任務例如目標檢測和分割。另一個讓人吃驚的是不使用標註可能對transfer learning有著較大的幫助。這篇文章主要研究一下幾個問題:

  1. 是什麼使instance discrimination pretraining good for transfer learning;
  2. 在模型中實際學習和轉移了什麼知識?
  3. 通過對instance discrimination的研究,我們怎麼更好的利用人類的標註在pre-training;
    我們的發現回答了這些問題:
  4. transfer learning重要的是low/mid level的representation learning,而不是high level的representation ;
  5. 第二是intra-category invariance ,在傳統的supervised learning 我們強制讓一類的圖片進行特徵提取,這就是傳統方式的監督學習弱化轉移能力的原因;
  6. 最後,有監督的pre-training可以通過基於示例的方法,不需要再資料集上有著明顯的約束——必須是同一個種類。

Introduction:

背景1:傑出的transfer learning 擁有著unsupervised pretraining in visual recognition。這個pretraining method — MOCO. MOCO 建立一個里程碑(因為超過了同行的supervised learning AP of 46.6與 42.4(pascal voc)的目標檢測所進行對比)。Supervised learning是以事實標準進行訓練,然後在下游任務上進行微調,而且Supervised 的label是以百萬級別的image收集較長時間,但是結果確適得其反,對transfer沒有較大的幫助而且可能有害。這也提出了這個問題為什麼contrastive pretraining 可以提供更好的transfer表現和supervised pretraining的不足

背景2:領先的unsupervised learning pretraining method 是有一個instance discrimination 的pretasks,每一個資料集中相同型別的instance的特徵都被“拉”出來。不變性(Invariance)是通過encoder不同地low-level image變換而來的,例如(cropping,scaling和color jittering等方法)。由於這些低階特徵的不變性,強大的泛化性成就了一些high level的概念例如imagenet 的categories(semantic information).另一方面來說,大部分的方法都是使用的coss-entropy來進行優化,使用cross-entropy將同一class的物體進行drawn closer,將不同一類(class)的物體pulled away.

背景3:為了明白為什麼無監督的pretraining 在instance discrimination上的效果這麼好,我們剖析unsupervised/supervised 的pretraining methods在下游檢測任務。我們的研究開始於一個大眾的“信仰”——*high level的semantic information is the key to effective transfer learning.*但是我們發現在不同型別下進行預訓練,我們發現transfer performance在pretraining中好像並不受high level的semantic content所影響,即使是訓練中的圖片的semantic content是否target content相互匹配。另一個方面是篇retraining在合成圖片中,合成圖片的low level的資訊與真實圖片的並不一致,使transfer的performance的能力下降了。
得出結論:transfer performance是主要使用的primarily low-level和mid-level的representation。

背景4(問題回答2):我們也研究了supervised與unsupervised learning在目標檢測上的對比。第一,detection errors是用detection toolobox所確定的,同時我們發現了有監督的pretraining和無監督的pretraining對比,supervised learning在localization error上更容易受到影響。第二,為了搞明白localization error,我們還做了image在supervised和unsupervised learning的representation的重建效果,結果表明unsupervised的representation更加全面。
結論:supervised pretraining至少在目標檢測的下游任務中存在著錯位,目標檢測需要更加準確的位置資訊與更加完整的描繪物件區域。
更具體的說(supervised learning是在imagenet上做分類pretraining,然後下游任務是在做目標檢測/語義分割(有 gap))

Introduction總結:
基於以上的研究,我們總結**“在目標檢測,不僅僅說是high level的semantic informantion在transfer是不那麼重要的,而且還存在上游任務與下游任務存在著檢測的錯位”**。根據總結出的結論,我們假設出最重要的區別使supervised和unsupervised相比,supervised的預訓練更弱的原因是減少了intra-class variation(過分強調one class一致性)。一個簡單的假設就是在目標檢測和分類任務中,過分強調intra-class variation,會使特徵空間卻乏獨特instance的資訊,這些有可能對我們下游任務有著較大的影響。 因此,我們是不是就要去發現新的supervised learning模式,不去強調one class的一致性,在不做這種約束的情況下在training instance的情況下分開正負樣本所進行訓練。同時,只要在預訓練與下游任務存在gap,人們就要注意這個gap。實驗部分我們做了兩個實驗,一個是小批量的識別和麵部檢測,這兩個實驗也基本上證實了我們的結論。

A CASE STUDY ON OBJECT DETECTION

我們研究transfer performance 在不同種類的預訓練(IMAGENET)在目標檢測任務與PASCAL VOC07上。我們使用MOCO的pretrained在unsupervised ,微調網路中的所有層並使用synchronized batch normalization。

2.1 comparsion of detection transfer
我們開始確定unsupervised pretraining 的優勢開始於互相對比supervised/unsupervised learning在相同情況下所進行對比。在相同條件下的image augmentation,optimization epoch和finetuning iterations。
同時這也是為了確定supervised pretraining是否會表現出更好的表現在出現了overfitted的情況和使用了不同的影像增強的情況下。
unsupervised pretraining —— Moco-v2 supervised /cross entropy / resnet - 50
在這裡插入圖片描述
table(a) augmentations=> 在color jittering和random grayscaling對supervised learning對supervised learning 預訓練有著較大的提升,但是在Gaussian blurning基本沒有提升,而且,就算提升了的supervised learning與unsupervised 相比還有這落後(AP50的情況相似)。table(b)可以迭代的看到優化下游任務的具體情況與finetune後的情況(transfer能力),而且通過觀察,我們能看出無監督的進度提升比有監督的速度要快一些。
結論:unsupervised pretraining outperform supervised pretraining for detection transfer。

2.2 Effect of Dataset Semantics on Pretraining
不同資料集語義資訊對pretraining的影響。Unsupervised learning線上性分類(imagenet上展現了強大的能力),這也體現了feature有著high-level的語義資訊。在supervised pretraining中,有一個常識一樣的”信仰“,從imagenet(pretraining)to VOC detection(transfer)的最關鍵的是high-level representation。但是,我們要挑戰信仰,通過unsupervised pretraining 在(沒有或者較為少語義資訊的資料集上進行訓練)。這些資料集包括faces scenes,合成street-view image,而且我們也研究了unsupervised pretraining的資料集大小(非尺寸)對transfer表現的大小。
在這裡插入圖片描述

  1. transfer performance 與 pretraining image data不受太大影響
  2. supervised pretraining與supervised semantic較為相當,而且當label含有畫素級別標註的(例如coco資料集的bbox和synthia所進行的語義分割),會對訓練有著負面的影響
  3. 小的資料集跟能體現出無監督學習的優勢

2.3 Task Misalignment and information loss
在目標檢測任務之中,high level 的representation是對transfer沒有那麼必要的,但是這未必能回答 “為什麼無監督的預訓練的效果優於有監督”,我們注意到了圖一(supervised)AP75,AP50之間有一個較大的gap,這也暗示了著supervised pretraining在空間位置精度會減弱。下圖對比了三個誤差分佈(三個示例類別在有監督/無監督的傳輸結果),我們發現了supervised pretraining的detection errors更多的來自於poor localization。
在這裡插入圖片描述

在這裡插入圖片描述
我們還對pretraining 的影像進行了重建了(iamge feature map),同時使他視覺化。在圖二我們可以明顯地看到,unsupervised network可以呈現出更加完整的reconstruction,但是supervised network損失了許多information例如大量的區域,這是classification的任務,而不是將物體或者影像視覺化。因此,我們猜測,我們丟失的物件之外的資訊可能組織了supervised learning在目標檢測上這類任務的精度
![在這裡插入圖片描述](https://img-blog.csdnimg.cn/2020122318103336.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0plc3NlXzA4,size_16,co在這裡插入圖片描述
圖二,我們可以看到無監督的重建出了正確的比例尺和位置,而且學習到的特徵仍然是十分敏感的,一個可能的解釋就是每一個例項儘可能的保證其唯一性,網路會努力保持儘可能多的資訊。

一個更好的supervised pretraining method

註釋百萬級別的Imagenet提供了豐富的語義資訊,這也許對下游任務有用。我們傳統的方法使用cross-entropy loss來弱化了intra-class variation,會注重一個類別的區域(目標),但是會丟失其他區域的資訊。一個更好的supervised pretraining method應該將正負樣本的instance的feature分開,而不是將他們全部都變成積極的樣本,這樣做保證了每一個positive instance獨特的information。

Implications for other Transfer learning Scenario

目前的主要見就是將imagenet(pretraining)轉移到voc的目標檢測上,對於其他的目標檢測任務,其任務的性質不同。因此我們的主要研究應用在過擬合的supervised pretraining semantics和怎麼改進。
1.小樣本的識別
第一個應用常見是小樣本,pretext tasks 是基於64累的影像識別,下游任務是影像識別新的五各類。在detection transfer study之中,我們又對比了額三個預訓練模式 supervised cross-entropy 2.unsupervised moco-v2和supervised exemplar-v2 通過實驗我們我們的無監督學習弱於其他的兩個訓練模式,這也暗示了上下游任務是一致的。
2.facial landmark prediction
接下來我們看transfer learning scenario 在面部識別到面部識別預測的transfer learning在CELEBA與MAFL, Pretext task 是 CelebA,下游任務是預測五個面部,這個場景的使用體現的是pretext task與下游的GAP.

結論

這篇文章主要還是分析的下游任務object detection和更好的理解unsupervised pretraining,也證明了無監督的優越性,更具體的如下:
PART ONE: transfer learning所主要transfer的是low/mid level的representation,著也暗示了無監督的representation上學習,然後快速轉到適應目標檢測任務;
PART TWO:從unsupervised pretrained network輸出的特徵是,因為他們過擬合於high level semantic.
PART THREE:unsupervised 的pretrained network從instance discrimination pretext task擁有豐富的資訊,可以用於構建畫素級別的影像。
PART FOUR: 對於supervised pretraining,intra-class invariance可以使網路專注於某一類別,忽視無意義的東西分類。

相關文章