抱歉我們今天想介紹的這篇論文,剛剛中了CVPR 2018最佳論文

机器之心發表於2018-06-20

自 CVPR 2018 公佈接收論文以來,機器之心為大家介紹了多篇論文,而之後計劃釋出的這一篇竟然中了 CVPR 2018 的最佳論文(小編眼拙啊),所以提前推薦給了大家。

引言

目標識別、深度估計、邊緣檢測、姿態估計等都是研究界認為有用的和已解決的常見視覺任務的例子。其中一些任務之間有著明顯的相關性:我們知道曲面法線和深度是相關的(其中一個是另外一個的導數),或者空間中的滅點(vanishing point)對於定位是有幫助的。其他任務相關性不太明顯:關鍵點檢測和空間中的陰影如何共同執行姿態估計。

計算機視覺領域發展至今,確實沒有明確地使用這些相關關係。我們通過開發先進的學習器(如 ConvNets)已經取得了顯著的進展,這些學習器能夠在給定訓練資料即多組滿足 x ∈ X,y ∈ Y 的(x,y)時,找到從 X 到 Y 的複雜對映關係。這通常被稱為是完全監督學習,並且常常可以獨立地解決問題。主題分類任務使得訓練新任務或綜合感知系統成為一個西緒弗斯式的挑戰,每項任務都需要單獨從頭開始學習。這樣做,忽略了任務之間可量化的相關性,導致了對大量標記資料的需求。

抱歉我們今天想介紹的這篇論文,剛剛中了CVPR 2018最佳論文圖 1:由計算任務分類(Taskonomy)發現的一個示例任務結構。例如,從圖中可以發現通過將曲面法線估計器和遮擋邊緣檢測器學習到的特徵結合起來,用少量標記資料就能快速訓練用於重描影和點匹配的優質網路。

另外,結合了任務之間相關性的模型只需要較少的監督,使用更少的計算並以更可預測的方式執行。結合這樣的一種架構是開發可被證明有效的綜合/通用感知模型 [34, 4] 的第一塊墊腳石,也就是說,這種模型能夠在對監督或計算的需求變得棘手之前解決大量任務。然而,這個任務空間的結構及其影響在很大程度上仍然是未知的。這些相關性是重要的,然而因為我們的學習模型和優化器還不完善,所以找到它們變得十分複雜。

在本文中,研究者試圖揭示這個底層結構,並提出一個對映視覺任務空間的框架。這裡所說的「結構」指的是一組通過計算發現的相關關係,其指定哪些任務向另一個任務提供有用的資訊,以及提供多少資訊(見圖 1)。

為此,通過將神經網路作為計算函式類,研究者採用了一種完全計算的方法。在一個前饋網路中,每一層相繼生成輸入的更抽象表徵,這些表徵包含從輸入到輸出的對映所需的資訊。然而,若假設任務以某種形式相互關聯 [83, 19, 58, 46],則這些表徵可以傳輸對解決其他輸出(任務)有益的統計量。本文方法的基礎:基於一項任務的解決方案是否可以足夠輕易地從另一項任務訓練的表徵中讀出,以計算任務之間的親和矩陣。這樣的遷移是完全抽樣的,並且通過一個二進位制整數規劃正規化從中提取一個全域性有效的遷移策略。結果表明,相比於獨立地學習任務,這個模型可以使用更少的資料來解決任務,同時最終得到的結構對常用資料集一樣有效(ImageNet [78] 和 Places [104])。

本文提出的完全計算和基於表徵的方法避免了在任務空間上施加先驗(可能是錯的)假設。這是至關重要的,因為有關任務之間相關性的先驗通常源於人的直覺或分析性知識,然而神經網路並不需要遵循相同的原理執行 [63, 33, 40, 45, 102, 88]。比如,儘管我們可能預期深度可以更好的遷移到曲面法線(求導是容易的),但發現在一個計算框架中反向遷移更好(即更適合神經網路)。

抱歉我們今天想介紹的這篇論文,剛剛中了CVPR 2018最佳論文圖 2:任務相關性的計算建模並建立分類。從左到右:I. 訓練特定任務的網路。II. 在隱空間內訓練(一階或更高階)任務之間的遷移函式。III. 使用 AHP(層次分析法)得到歸一化的遷移親和性。IV. 使用 BIP(二進位制整數規劃)查詢全域性遷移的分類。

抱歉我們今天想介紹的這篇論文,剛剛中了CVPR 2018最佳論文圖 3:任務字典。對一項查詢(左上)的(26 個任務中的)24 個特定任務網路的輸出。在這裡檢視視訊中應用框架的逐幀結果。

抱歉我們今天想介紹的這篇論文,剛剛中了CVPR 2018最佳論文圖 4:遷移函式。訓練一個小型讀取函式,將源任務凍結的編碼器的表徵對映到目標任務的標籤上。如果階數 > 1,則遷移函式接收來自多項源任務的表徵。

抱歉我們今天想介紹的這篇論文,剛剛中了CVPR 2018最佳論文圖 5:將結果從 5 個不同的源任務上遷移到曲面法線(上)和 2.5 維分割(下)。不同源之間可轉移性的差異是明顯的,在這種情況下,重描影是遷移性最佳的任務之一。特定任務的網路使用 60 倍的資料進行訓練。「Scratch」是無遷移學習下的從頭開始訓練。

抱歉我們今天想介紹的這篇論文,剛剛中了CVPR 2018最佳論文圖 6:高階遷移。表徵可以包含輔助資訊。例如,通過從三維邊緣和曲率同時進行遷移,單個樓梯能被提取出來。有關更多的示例,請參閱公開的互動式遷移視覺化頁面:http://taskonomy.stanford.edu/tasks/。

抱歉我們今天想介紹的這篇論文,剛剛中了CVPR 2018最佳論文圖 7:經過層次分析法(AHP)歸一化操作前(左)、後(右)的一階任務親和矩陣。越低意味著遷移表現越好。對於視覺化,我們使用了標準親和距離,dist = e^−β·P(其中 β = 20 並且 e 是逐元素求矩陣對數)。對於高階遷移的完整矩陣,請參閱補充材料。

抱歉我們今天想介紹的這篇論文,剛剛中了CVPR 2018最佳論文表 1:特定任務網路的效能:勝率 vs. 隨機(高斯)網路表徵的讀數與統計上獲知的猜測平均值。勝率(%)是測試集中超過基準的圖片比例。表 1 提供了特定任務網路與兩種基準的勝率。一個隨機測試樣本的視覺化輸出如圖 3 所示。表 1 中的高勝率和定性結果表明網路訓練良好且穩定,可用於建模任務空間。

抱歉我們今天想介紹的這篇論文,剛剛中了CVPR 2018最佳論文圖 8:給定不同監督預算(x 軸)和允許的最大遷移階數(y 軸)的情況下,用於解決 22 個任務的計算分類法。其中一個被放大以提高可見性。具有傳入邊緣的節點是目標任務,其傳入邊緣的數量是其選擇的遷移函式的階數。當預算為 26(全部預算)時,仍然遷移到某些目標上意味著某些遷移開始比它們完全監督下特定任務的對應變體表現的更好。通過增益和效能指標來檢視節點顏色編碼的互動式求解器網站:http://taskonomy.stanford.edu/api/。顏色暗淡的節點只是源任務,因此,只有在通過 BIP 優化轉化為其中一個來源這項操作被認為是有價值的時候,其才會參與到分類中。

抱歉我們今天想介紹的這篇論文,剛剛中了CVPR 2018最佳論文圖 9:為解決完整的任務字典而計算的分類評估。隨著監督預算的增加(→),使用計算分類法推薦的策略得到每個任務的增益(左)和效能(右)。遷移階數如下所示為 1 到 4。

抱歉我們今天想介紹的這篇論文,剛剛中了CVPR 2018最佳論文圖 10:推廣到新的任務。每行表示一個新的測試任務,左:使用針對新任務設計的「全合一」的 1-4 階的遷移策略得到增益和效能。右:在各種自監督方法、ImageNet 特徵和從頭開始訓練下的遷移策略的勝率(%),如圖中彩色行所示。請注意分類法的巨大優勢。無顏色的行表示相應的損失值。

抱歉我們今天想介紹的這篇論文,剛剛中了CVPR 2018最佳論文圖 11:架構的重要性。本文的分類法與隨機遷移策略(使用允許的最大監督預算的隨機可行分類法)的比較。Y 軸表示效能或增益,X 軸是監督預算。綠線和灰線分別代表本文的分類法和隨機連線。誤差線表示 5% - 95%。

抱歉我們今天想介紹的這篇論文,剛剛中了CVPR 2018最佳論文圖 12:評估已有架構在其他資料集上的表現:用於目標分類的 ImageNet [78](左)和用於場景分類的 MIT Places [104](右)。Y 軸表示外部基準的準確率,而 X 軸上的條形根據資料集上的分類預測效能進行排序。一個單調遞減的圖形相當於保持相同的順序和完美的泛化。

抱歉我們今天想介紹的這篇論文,剛剛中了CVPR 2018最佳論文圖 13:任務相似性樹。基於遷移-輸出模式的任務的合併聚類(即使用歸一化親和矩陣的列作為任務特徵)。三維、二維、低維幾何和語義任務使用一種完全計算的方法聚集在一起。

論文:Taskonomy: Disentangling Task Transfer Learning(任務分類法:解構任務遷移學習

抱歉我們今天想介紹的這篇論文,剛剛中了CVPR 2018最佳論文

論文地址:http://taskonomy.stanford.edu/taskonomy_CVPR2018.pdf

視覺任務之間是否相關?例如,能否使用曲面法線簡化估計影像深度的過程?直覺上對這些問題的正面回答暗示著在各種視覺任務之間存在一種結構。瞭解這種結構具有巨大的價值;它是遷移學習背後的概念,且可為識別任務間的冗餘提供了一種有理可依的方法,比如,為了在相關任務間無縫地重複使用監督或在一個系統中解決多個任務而不增加複雜度。


我們提出了一種完全計算的方法來建模視覺任務的空間結構,通過在一個位於隱空間內的 26 個二維、2.5 維、三維和語義任務中尋找(一階或更高階)遷移學習依賴關係來實現。其成品是用於任務遷移學習的計算分類圖。我們研究了這個結構的成果,比如出現的非平凡相關關係,並利用它們減少對標註資料的需求。比如,我們展示瞭解決一組 10 個任務所需的標註資料點總數可以減少約 2/3(與獨立訓練相比),同時保持效能幾乎一致。我們提供了一套計算和探測這種分類結構的工具,包括一個求解器,使用者可以用它來為其用例設計有效的監督策略。

相關文章