NeurIPS 2021 | 物體檢測與分割的零標籤視覺學習

微軟技術棧發表於2021-12-10

(轉載自微軟研究院AI頭條)

編者按:隨著自監督學習的研究逐步深入,遷移學習的正規化已經廣泛應用於視覺學習的各個領域,大量的視覺任務都通過使用自監督預訓練和有監督微調的方式來部署任務。而微軟亞洲研究院的研究員們希望打破這一正規化,在 NeurIPS 2021 發表的論文中,研究員們提出了一個可以從無標籤視訊中學習物體檢測和分割的模型,使得自監督預訓練模型可以直接服務於應用,而不需要任何有監督微調,實現了零標籤的學習。

對比學習是當前訓練視覺自監督模型中的主流方法。其核心思想是將訓練資料集中的每一個獨立樣本視為一個類別,設計預訓練的任務為獨立個體的識別。由於每個類別只有一個樣本,個體識別會非常簡單。研究者們通常會利用資料增強技術為每個樣本創造豐富的類內樣本。對於圖片來說,資料增強大致包括:圖片的平移、縮放、翻轉、顏色對比度和色澤的變化、模糊以及灰度變換等等。這些影像增強技術雖然改變了影像的細節,但是卻沒有改變圖片描述的語義內容。實際上,對比學習是在學習對於這些增強變換具有不變性的特徵表示。從實驗中可以觀察到,對比學習對資料增強的依賴是非常顯著的。

6794c033ab8abdbb437d2cedb5aa712c.png
圖1:對比學習強烈依賴於底層的影像增強技術從而學習不變性。常用的影像增強技術包括平移、縮放、顏色增強、區域性模糊等。

作為一種預訓練的方法,對比學習只是學習到了一種特徵表示,但是這種特徵表示需要一些(少量的)有監督的下游資料做微調訓練之後,才可以應用於下游任務。預訓練的表徵雖然可以大幅度提升下游任務的微調效能,但依賴於微調的特性卻成為了自監督模型本身的缺陷和短板。

029bc6a3292f548363b3d27222ebe5cd.png
圖2:遷移學習的框架:通用預訓練 + 特定任務的微調。自監督學習成為了強大的預訓練方法,然而其必須利用下游任務的少量監督資料才可以服務於應用。

從視訊中學習物體檢測和分割

基於針對對比學習缺陷的分析和理解,微軟亞洲研究院的研究員們希望設計一種不需要微調就可以直接應用到下游任務的自監督模型。為了達成這個目的,研究員們開始從視訊中尋找有用的資訊。區別於計算機學習圖片識別任務,人類是從一個連續變換的時序訊號中實現學習的。一個時序的視訊訊號包含了很多圖片中不可能存在的有用資訊。比如,視訊可以描述一個物體的運動(motion)以及它的形態變化(deformation);然而,對於靜態圖片資料集,一個物體很難在資料集中被多次捕捉到。再如,通過幾何學的方法,研究員們可以從視訊中重建一個物體的三維形態,但這也很難從靜態圖片中恢復。因此,研究員們希望可以從視訊中分析物體的運動形態,藉助其運動形態幫助檢測物體的存在,並分割出物體的外形。

檢視合成任務(View Synthesis)

首先,研究員們需要從視訊中尋找到合適的免費監督資訊來學習物體的檢測和分割。視訊中常用到的一個學習目標就是檢視合成任務。具體來說,給定一個視訊的兩幀圖片,一幀初始圖片,一幀目標圖片,檢視合成任務會嘗試學習一個扭曲函式(warping function),用來建模從初始幀到目標幀的畫素重建過程。這個看似簡單的任務有著豐富的應用場景。例如,若用畫素點對點的對應關係來表示這個扭曲函式,那麼視覺合成任務就可以實現自監督的光流(optical flow)學習。再如,若可以獲得相機的引數,視覺合成任務可用來實現自監督單通道深度(depth)的估計。實現不同自監督任務的關鍵是:找到一個合適的表示方法(representation),使其既能夠完成檢視合成任務,同時又能實現所關心的應用任務,比如光流和深度的估計。再舉一個例子,先前的工作為了完成雙目影像的立體增強(stereo magnification),設計了新的多平面圖(multi-plane images)表示方法。

801df7c4f7ad6333a2228fa7a6eee919.png
圖3:檢視合成任務可以驅使一種新的多平面圖表示,這種新的表示可以幫助生成大 baseline 情況下的檢視。圖片摘自論文“Stereo Magnification: Learning View Synthesis using Multiplane Images”。

研究員們寄希望於應用檢視合成任務來實現物體的檢測和分割,這與先前工作最大的不同是試圖提取和學習圖片中層甚至高層的表示,而並非僅停留在學習影像的一些低層表示。出於此目的,研究員們設計了一種新的表示和模型 AMD(Appearance-Motion Decomposition),用來實現零標籤的物體分割。

相關論文“The Emergence of Objectness: Learning Zero-Shot Segmentation from Videos”已被 NeurIPS 2021 接收。

論文連結:
https://papers.nips.cc/paper/...

分割流以及 AMD 模型

圖4展示了 AMD 模型的基本構架。模型主要由兩個構架網路組成:外形網路(appearance pathway)和運動網路(motion pathway)。給定一幀的輸入frame i,外形網路會將其分割成為若干個區域,在此例子中為3個。給定連續兩幀的輸入 frame i 和 frame j,運動網路則會首先抽取出描述空間對應關係的運動特徵,接著為外形網路預測的每個區域估計一個整體的光流(flow offset)。

7f8f780f5bd89e1d4b7a61f39cd6e101.png
圖4:AMD 模型的基本構架。下分支為預測分割的外形網路,上分枝為預測分割流的運動網路。整個模型使用檢視合成任務做為訓練目標。

在這裡,研究員們應用 gestalt principle common fate 的假定,認為每個區域內部共享一個單獨的光流。這種假定對於一些剛性物體的運動是不錯的估計,但對於複雜形變的物體,這種假定是不成立的。根據預測的每個區域以及相應區域的光流值,研究員們重構了一個光流圖。因為這個光流受限於分割的結果,只有很低的自由度,因此稱之為分割流(segment flow)。得到這個分割流之後,就可以將 frame i warp 到 frame j 這一幀上。重建的 frame j 可以和實際觀測做對比,監督整個網路的學習。

AMD 模型將一個視訊的外形(appearance)資訊和運動 (motion)資訊解耦開(decomposition),從而實現了對影像分割零標籤的應用。在實現上,外形網路應用傳統的 ResNet50 結構,運動網路應用常見的 PWC-Net, 兩個網路均從零訓練,未加入任何的預訓練初始化。預訓練完成後,外形分支可以直接應用在全新的圖片上實現影像分割,而不需要任何微調。值得注意的是,訓練 AMD 模型並不需要加入大量的影像增強技術。這在一定程度上緩解了對於對比學習的依賴。

a9ed11e9316821e7a3ac70198a2410b9.png
圖5:光流和分割流的對比。光流以單個畫素為基本單元描述物體的運動,分割流以區域性的區域為基本單元描述運動。可以看出,由於其精確的描述,光流在時間上的變化很大,很難準確的分割物體。研究員們的分割流盡管犧牲了運動的準確性,卻獲得了對於物體結構的認知。

下游應用與實驗結果

無需任何微調,研究員們的 AMD 模型便可以應用在圖片分割和視訊運動物體等分割任務上。對於影像分割,研究員們只需遷移圖形網路分支即可。在一個顯著性檢測(saliency detection)的資料集 DUTS 上測試時,圖6展示了分割效果。由此可見,研究員們的預訓練模型不僅可以檢測和分割“可移動的物體”,還可以泛化到分割一些靜態物體上,例如:雕塑、盤子、長椅、樹木等等。

5cdc12b7fd61062a07e46064f32746a2.png
圖6:顯著性檢測在 DUTS 上的測試效果

對於分割視訊中的運動物體,則需要遷移 AMD 模型的全部兩個分支。針對一個測試視訊,為了利用運動資訊,研究員們使用了測試階段優化的技巧(test time adaptation)。具體而言,研究員們同樣使用檢視合成這個自監督任務對測試視訊進行優化,並將 AMD 模型在三個資料測試集上進行了測試(模型從未見過這些資料集的訓練集)。研究結果顯示,AMD 模型在其中兩個資料集上都大幅度超過了已有的方法。圖7展示了具體的效能和視覺化的結果。

03951b987ee3c8eaa60c8ac7f33548ff.png
8fd135ede33f0a828c7d4042c543ad12.png
圖7:視訊中的運動物體分割,上圖為視覺化的對比,下表為數值上的對比。

總結

本篇論文的研究試圖提出和設計一種零標籤的自監督學習模型。該模型不需要任何微調就可以使用在一些應用場景中。這項研究工作解耦了視訊中的外形和運動表徵,使其能夠分割和檢測物體。研究員們也希望這項研究工作可以啟發更多零標籤學習的相關任務。

參考文獻

  1. Tinghui Zhou, Richard Tucker, John Flynn, Graham Fyffe, and Noah Snavely. Stereo magnifi- cation: Learning view synthesis using multiplane images. arXiv preprint arXiv:1805.09817, 2018.
  2. Clément Godard, Oisin Mac Aodha, Michael Firman, and Gabriel J Brostow. Digging into self-supervised monocular depth estimation. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 3828–3838, 2019.
  3. Zhirong Wu, Yuanjun Xiong, Stella X Yu, and Dahua Lin. Unsupervised feature learning via non-parametric instance discrimination. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 3733–3742, 2018.
  4. Deqing Sun, Xiaodong Yang, Ming-Yu Liu, and Jan Kautz. Pwc-net: Cnns for optical flow using pyramid, warping, and cost volume. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 8934–8943, 2018.

歡迎關注微軟中國MSDN訂閱號,獲取更多最新發布!
image.png

相關文章