近日,來自南京大學、曠視和阿德萊德大學的研究者在 arXiv 上釋出論文,提出一種利用少量樣本學習新類別細粒度分類器的新方法 FSFG 模型,該方法包含兩個模組:雙線性特徵學習模組和分類器對映模組。後者中的「分段對映」功能是該模型的關鍵部分,它通過一種引數更少的方式學習一組相對易實現的子分類器,進而生成決策邊界。
細粒度影像識別是一個重要的計算機視覺問題。得益於複雜深層網路結構的應用,該問題解決方案的表現也越來越好。訓練這種分類演算法所需的大規模細粒度資料量限制了其應用範圍(例如對於稀有鳥類,可收集的訓練樣本較少),而人類卻能夠在缺乏監督的條件下學習新的細粒度概念。為了模仿人的這種能力,本論文在少樣本的設定下研究細粒度影像識別問題,也就是說,本論文的研究目標是從數量極少的訓練樣本中學習新型細粒度類別的分類器(樣本(sample)又叫範例(exemplar),數量通常為 1 或 5)。
圖 1:少樣本的細粒度影像識別(FSFG)任務圖示。任務目標是從少數範例中學習得到細粒度類別分類器(本示例中是從少量範例中學習得到鳥類品種分類器)。研究者使用輔助資料集 B 訓練得到範例到分類器的對映,並在另一個資料集 N 上測試 FSFG 的效能。這兩個資料集間沒有類別重疊。
如何基於少量訓練樣本學習得到細粒度類別分類器是個難題,因為我們對學得分類器的期望是:能夠捕獲類別之間的細微差別,並且可泛化至有限監督之外。為了實現這樣的範例到分類器對映,本論文研究者提出一個為 FSFG 任務量身定製的端到端可訓練網路,該網路受當前最優的細粒度識別模型的啟發。具體而言,該網路由雙線性特徵學習模組和分類器對映模組組成。前者將樣本影像的分類資訊編碼為特徵向量,而後者是整個網路的關鍵部分,它將中間影像特徵對映到類別級別決策邊界。這種對映存在兩個問題。一方面,影像級別表徵的分佈可能很複雜,會對後續對映造成困難。另一方面,雙線性池化生成的特徵維數非常大,它可能造成的引數爆炸進一步阻礙了後續對映。
本文提出模型的新穎之處在於分類器對映模組中的「分段對映」功能,該功能用一種引數更少的方式學習一組相對易實現的子分類器,進而生成決策邊界。由於雙線性池化中的外積計算,其獲得的特徵本質上可以看作是一組子向量,每個子向量都隱性地表示影像的一部分。研究者使用高度非線性對映來執行子向量到子分類器的對映。然後,將這些子分類器重新組合為全域性分類器,這樣就能給樣本分類了。直觀來看,研究者利用隱性表示「部分」的子向量學習得到了特徵到分類器的對映,子向量可以編碼更簡單純粹的資訊,最終使分類變得更容易。此外,分段對映顯著減少了模型引數的數量,使計算更加高效。研究者用元學習的方式藉助輔助資料集學習得到範例到分類器的對映,如圖 1 所示。元學習過程的目的是學習得到一個「對映原型」,研究者希望這個原型能泛化至新的類別。
實驗中,研究者在三個細粒度基準資料集(CUB Birds [23]、Stanford Dogs [9] 和 Stanford Cars [11])上執行上述 FSFG 方法。實證結果表明,FSFG 模型顯著優於其他基線方法。
本論文的主要成果如下:
研究了少樣本條件下細粒度影像識別問題,並提出一種新型元學習策略來解決這個問題。
設計了一種名為分段對映的新型範例到分類器對映方法,它採用雙線性 CNN 特徵的特殊結構,利用相對較少的引數學習得到分類器。
利用三個細粒度基準資料集進行了全面的實驗,發現 FSFG 模型的效能比其他所有的解決方案都要好。
圖 2:FSFG 模型的思路。在每個 episode 中,研究者從 B 中抽取樣本集合 E,它由一個類別子集(本例中一共有三個類別)組成,每個類別包含很少的範例(紅色邊框的影像)。研究者希望學習得到對映 M,它可以將這些範例對映到相應的類別分類器(虛線)。學習得到的對映引數能夠使這些分類器準確地區分待識別影像(黃色邊框影像)。
圖 3:FSFG 模型的架構圖示。左邊是表徵學習的第一個元件(雙線性池化模組)。右邊是第二個元件(分類器對映模組),它將中間影像特徵對映到類別分類器。
表 2:三個細粒度資料集上的對比結果(平均值 ± 標準差)。每列的最大平均精度用粗體標出。「•/◦」表示 FSFG 模型優於/差於其他方法(通過置信水平為 0.05 的成對 t 檢驗來比較)。「FB」表示使用完全雙線性池化表徵,「CB」表示使用緊湊雙線性池化。
表 3:全域性對映和分段對映的對比結果。每列的最大平均精度用粗體標出。「•」表示分段對映效能優於全域性對映(通過置信水平為 0.05 的成對 t 檢驗來比較)。
圖 4:全域性對映和分段對映生成的類別分類器利用 t-SNE [21] 得到的二維視覺化結果。每個點表示一個生成的分類器,不同的顏色表示不同的類別。每個類別顯示五十個分類器,每個分類器都是通過學習隨機抽樣的五個範例獲得的。該視覺化基於 CUB Birds 資料集。
圖 5:不同層數的模型簡化測試。在每個子圖中,橫軸代表層數,縱軸代表準確率。
論文:Piecewise classifier mappings: Learning fine-grained learners for novel categories with few examples
論文連結:https://arxiv.org/pdf/1805.04288.pdf
摘要:人類能夠在缺乏監督的情況下學習新的細粒度概念,而最好的深度學習系統卻需要成百上千的標註資料來訓練。我們試圖通過研究少樣本條件下的細粒度影像識別問題(FSFG)來縮小人類與深度學習系統之間的上述差距。FSFG 要求學習系統利用少量樣本(只有一個樣本或者樣本數小於 5)為新的細粒度類別構建分類器。為解決上述問題,我們提出了一個為 FSFG 任務量身定製的端到端可訓練深度網路。
具體而言,我們的網路由雙線性特徵學習模組和分類器對映模組組成:前者將示例影像的分類資訊編碼為特徵向量,後者將中間特徵對映到新類別的決策邊界。模型的新穎之處在於分類器對映模組中的「分段對映」功能,該功能通過一種引數更少的方式學習一組相對易實現的子分類器,進而生成決策邊界。基於輔助資料集我們用元學習的方式學習範例到分類器的對映,它可以泛化至新類別中。我們在三個細粒度基準資料集上進行了相關測試,實驗結果表明,我們的 FSFG 模型顯著優於其他方法。