對抗式協作:一個框架解決多個無監督學習視覺問題

張倩發表於2018-06-25
深度學習方法已經在使用大量資料進行監督的計算機視覺問題上取得了優秀成果 [10,17,19]。然而,對許多需要密集連續值輸出的視覺問題而言,全面收集真實資料繁瑣或不切實際 [6]。本文主要針對以下四個問題:單目深度預測、攝像機運動估計、光流和運動分割。之前的研究已經試著用真實資料 [5] 和合成資料 [4] 透過監督學習解決這些問題。然而在真實資料和合成資料間還是存在現實差距,真實資料不僅有限,而且不準確。例如,一般用 LIDAR 獲取的深度真實資料 [6] 是稀疏的。此外,也沒有可以提供真實光流資料的感測器,所以所有現有的存有真實影像的資料集都有其侷限性或類似 [2,6,12]。運動分割真實資料需要手動標記一張圖中所有的畫素 [23]。

對抗式協作:一個框架解決多個無監督學習視覺問題

圖 1:網路 R=(D,C) 透過估計靜態區域光流解釋場景。光流網路 F 估計整張圖上的流量。運動分割 M 遮蔽掉來自 F 的靜態場景的畫素,以在完整影像上產生複合光流。相鄰幀應用複合流的損失 E,聯合訓練這些網路。

近期的研究都試圖解決無監督學習方法中訓練資料有限的問題 [13,22]。在缺少真實資料的情況下學到從畫素到光流、深度和攝像機運動的對映是巨大的挑戰,因為這些問題中的每一個都非常模糊。為了解決這一問題,就需要額外的限制,以及利用靜態場景、攝像機運動和光流的相關幾何內容。例如,將深度無監督學習和攝像機運動耦合起來 [20,33]。他們使用可解釋的掩碼遮蔽那些不能透過靜態空間假設解釋的環境。Yin 等人 [32] 對這種方法進行擴充套件,以評估光流並使用前後一致的方法解釋未解釋的畫素。這些方法在深度基準集和光流基準集中的表現都不太好。一個關鍵原因是這裡應用的約束無法分辨或分割像人類和車輛這樣獨立移動的目標。另一個原因是,一般而言不是所有未標記的訓練集中的資料都符合模型假設,而這些資料中的一些可能會使網路的訓練毀於一旦。例如,深度的訓練資料和攝像機運動不應該包含獨立移動的目標。相似的,對光流而言,資料也不應該包含遮擋,這會破壞光度損失。

想法。一個典型的真實世界場景包括在物理世界中不移動的靜態區域以及移動的目標。根據深度和攝像機運動,我們可以解釋影片序列中的靜態場景。相比之下,光流可以解釋場景中所有部分。運動分割將一個場景分類為靜態區域和動態區域。我們的主要觀點是,透過場景的幾何學和運動將這些問題結合起來,從而協同聯合解決這些問題。我們發現在從未標記的資料中聯合學習後,我們的耦合網路可以只使用有效的資料集並對資料集進行分割槽,與分別解決這些問題相比,我們的網路可以得到更準確的結果。

方法。為了解決聯合無監督學習的問題,我們引入了對抗式協作(Adversarial Collaboration,AC),這是一個通用框架,在這個框架中網路透過學習協作和對抗從而完成特定的目標。對抗式協作是一種有兩方對立爭取一種資源的三方遊戲,這種資源由調解方(moderator)監管。如圖 1 所示,我們在框架中引入兩方對抗方,靜態場景重建器 R=(D,C)使用深度和攝像機運動解釋了靜態場景畫素;動態區域重建器 F 解釋了獨立移動區域的畫素。對抗方透過解釋一段影像序列中靜態場景和動態區域的畫素爭取訓練資料。對抗由運動分割網路 M 調解,該網路分割靜態場景和運動區域,並將訓練資料分配給對手。不過,調解方也需要接受訓練,以確保公平競爭。因此,對抗方 R、F 聯合起來訓練調解方 M,使 M 在訓練週期的交替階段可以對靜態區域和動態目標進行正確的分類。從思想上講,這個通用框架與期望最大化(Expectation-maximization, EM)類似,但這是專門為神經網路訓練制定的。

貢獻。我們的貢獻總結如下:1)引入無監督學習框架——對抗式協作,在這個框架中網路可以為達到不同目標而扮演對抗者和協作者;2)這個框架中的聯合訓練網路對它們的表現有協同效應;3)據我們所知,本文所述方法是第一個在沒有任何監督的情況下使用諸如深度、攝像機運動和光流這樣的低等級資訊解決分割任務的方法;4)在單目深度預測、攝像機運動評估以及光流評估問題中,該方法在無監督學習方法中表現最佳。我們甚至比許多使用更大的網路的競爭方法 [32] 和像網路級聯這樣採用多個細化步驟的方法 [22] 的表現更好。模型和程式碼可以在 GitHub(https://github.com/anuragranj/ac)中獲取。

對抗式協作:一個框架解決多個無監督學習視覺問題

圖 2:對抗式協作的訓練週期:調解方 M 驅動對抗者 {R, F} 之間的競爭(第一階段,左圖)。之後,兩個對抗者協同,訓練調解方從而確保可以在下一個迭代中公平競爭(第二階段,右圖)。

對抗式協作:一個框架解決多個無監督學習視覺問題

圖 3:第一行從左到右分別表示影像、估計的深度對映、表示運動分割的軟掩碼。第二行從左到右分別表示靜態場景的光流、在運動區域中分割的光流以及全光流。

對抗式協作:一個框架解決多個無監督學習視覺問題

演算法 1:網路訓練演算法

對抗式協作:一個框架解決多個無監督學習視覺問題

表 1:深度評估的結果。第一塊表示有監督方法。資料參考訓練資料 cityscapes(cs) 和 KITTI(k)。Zhou el al.*在他們的 GitHub 中更新了結果。

對抗式協作:一個框架解決多個無監督學習視覺問題

表 2:光流(a)和攝像機運動估計(b)的結果。(a):SP 指靜態場景的畫素,MP 指動態區域的畫素。我們也與有監督方法進行了比較,FlowNet2 和 SpyNet 沒有對 KITTI 真實資料流進行微調。

對抗式協作:一個框架解決多個無監督學習視覺問題

表 3:運動分割結果。在 KITTI2015 訓練資料集影像中所有的汽車畫素計算出的交併比(IoU)得分。

論文:Adversarial Collaboration: Joint Unsupervised Learning of Depth, Camera Motion, Optical Flow and Motion Segmentation 

對抗式協作:一個框架解決多個無監督學習視覺問題

論文連結:https://arxiv.org/pdf/1805.09806.pdf

我們解決了幾個低階視覺中相關聯的無監督學習問題:單目深度預測、攝像機運動估計、光流和在靜態場景和動態場景中對影片進行分割。我們的關鍵性看法是這四個基本的視覺問題都是相關的,因此,一起解決它們可以簡化問題,因為透過利用已知的幾何約束可以使這些問題的解決方法相互補充。為了對幾何約束建模,我們引入對抗式協作,這是一個促進神經網路競爭與協作的框架。透過幾何學的利用,我們在靜態場景和動態區域的辨別和分割方面超越了之前的研究。對抗式協作的原理與期望最大化很像,但是包含充當競爭方的神經網路,競爭方爭相解釋與靜態和動態區域對應的畫素,同時也作為訓練決定畫素是靜態還是動態的調解方的協作方。我們的新方法將所有這些問題都整合在一個共同的框架中,同時解釋了場景的分割(移動的目標還是靜態的背景)、攝像機運動、靜態場景結構的深度以及移動目標的光流。我們的方法是在沒有任何監督的情況下訓練的,與此同時該方法在無監督學習的方法中達到了當前最優水平。對抗式協作:一個框架解決多個無監督學習視覺問題

相關文章