自 CVPR 2018 公佈接收論文以來,機器之心為大家介紹了多篇論文,而之後計劃釋出的這一篇竟然中了 CVPR 2018 的最佳論文(小編眼拙啊),所以提前推薦給了大家。
引言
目標識別、深度估計、邊緣檢測、姿態估計等都是研究界認為有用的和已解決的常見視覺任務的例子。其中一些任務之間有著明顯的相關性:我們知道曲面法線和深度是相關的(其中一個是另外一個的導數),或者空間中的滅點(vanishing point)對於定位是有幫助的。其他任務相關性不太明顯:關鍵點檢測和空間中的陰影如何共同執行姿態估計。
計算機視覺領域發展至今,確實沒有明確地使用這些相關關係。我們透過開發先進的學習器(如 ConvNets)已經取得了顯著的進展,這些學習器能夠在給定訓練資料即多組滿足 x ∈ X,y ∈ Y 的(x,y)時,找到從 X 到 Y 的複雜對映關係。這通常被稱為是完全監督學習,並且常常可以獨立地解決問題。主題分類任務使得訓練新任務或綜合感知系統成為一個西緒弗斯式的挑戰,每項任務都需要單獨從頭開始學習。這樣做,忽略了任務之間可量化的相關性,導致了對大量標記資料的需求。
另外,結合了任務之間相關性的模型只需要較少的監督,使用更少的計算並以更可預測的方式執行。結合這樣的一種架構是開發可被證明有效的綜合/通用感知模型 [34, 4] 的第一塊墊腳石,也就是說,這種模型能夠在對監督或計算的需求變得棘手之前解決大量任務。然而,這個任務空間的結構及其影響在很大程度上仍然是未知的。這些相關性是重要的,然而因為我們的學習模型和最佳化器還不完善,所以找到它們變得十分複雜。
在本文中,研究者試圖揭示這個底層結構,並提出一個對映視覺任務空間的框架。這裡所說的「結構」指的是一組透過計算發現的相關關係,其指定哪些任務向另一個任務提供有用的資訊,以及提供多少資訊(見圖 1)。
為此,透過將神經網路作為計算函式類,研究者採用了一種完全計算的方法。在一個前饋網路中,每一層相繼生成輸入的更抽象表徵,這些表徵包含從輸入到輸出的對映所需的資訊。然而,若假設任務以某種形式相互關聯 [83, 19, 58, 46],則這些表徵可以傳輸對解決其他輸出(任務)有益的統計量。本文方法的基礎:基於一項任務的解決方案是否可以足夠輕易地從另一項任務訓練的表徵中讀出,以計算任務之間的親和矩陣。這樣的遷移是完全抽樣的,並且透過一個二進位制整數規劃正規化從中提取一個全域性有效的遷移策略。結果表明,相比於獨立地學習任務,這個模型可以使用更少的資料來解決任務,同時最終得到的結構對常用資料集一樣有效(ImageNet [78] 和 Places [104])。
本文提出的完全計算和基於表徵的方法避免了在任務空間上施加先驗(可能是錯的)假設。這是至關重要的,因為有關任務之間相關性的先驗通常源於人的直覺或分析性知識,然而神經網路並不需要遵循相同的原理執行 [63, 33, 40, 45, 102, 88]。比如,儘管我們可能預期深度可以更好的遷移到曲面法線(求導是容易的),但發現在一個計算框架中反向遷移更好(即更適合神經網路)。
論文:Taskonomy: Disentangling Task Transfer Learning(任務分類法:解構任務遷移學習)
論文地址:http://taskonomy.stanford.edu/taskonomy_CVPR2018.pdf
視覺任務之間是否相關?例如,能否使用曲面法線簡化估計影像深度的過程?直覺上對這些問題的正面回答暗示著在各種視覺任務之間存在一種結構。瞭解這種結構具有巨大的價值;它是遷移學習背後的概念,且可為識別任務間的冗餘提供了一種有理可依的方法,比如,為了在相關任務間無縫地重複使用監督或在一個系統中解決多個任務而不增加複雜度。
我們提出了一種完全計算的方法來建模視覺任務的空間結構,透過在一個位於隱空間內的 26 個二維、2.5 維、三維和語義任務中尋找(一階或更高階)遷移學習依賴關係來實現。其成品是用於任務遷移學習的計算分類圖。我們研究了這個結構的成果,比如出現的非平凡相關關係,並利用它們減少對標註資料的需求。比如,我們展示瞭解決一組 10 個任務所需的標註資料點總數可以減少約 2/3(與獨立訓練相比),同時保持效能幾乎一致。我們提供了一套計算和探測這種分類結構的工具,包括一個求解器,使用者可以用它來為其用例設計有效的監督策略。