本文選擇深度學習細分種類下的少樣本學習(Few-Shot Learning)這個話題。近兩年來我們注意到學界開始改變之前大資料好效果的模型訓練方式,關注用少量的資料來達到較好的任務表現,目前此類方法還處在學界探索實驗階段,在業界運用還不算普及(由於業界產品對模型精確度有比較高的要求,且大多針對的都是特定業務細分場景),然而該方向『小資料學好模型』的思想對之後的機器學習研究和應用都具有非常好的前景以及應用潛力,所以筆者今年挑了四篇思路和方法都比較新穎,同時結果也具有說服力的少樣本學習的文章進行了比較細緻的引讀和推薦,文章內容涵蓋物體分類、物體檢測任務,以期給關注這個方向的讀者更多的啟發。
由於篇幅有限,在詳細介紹的四篇論文之外,我們還準備了幾篇同樣非常新穎的少樣本學習工作做了簡略的介紹,這部分文章涉及影像檢索,人臉反欺詐,長尾資料分類等任務,最後我們將篩選的本屆 CVPR 接受的幾篇少樣本學習或者相關的半監督學習文章的原文和名稱都附到了文章末尾供讀者參考。
分類任務上的少樣本學習
1.Edge-Labeling Graph Neural Network for Few-shot Learning(classification)
paper: https://arxiv.org/abs/1905.01436
code: https://github.com/khy0809/fewshot-egnn
圖網路(Graph Neural Network, GNN)由於節點與節點之間具有相關性可以實現更豐富的資訊傳遞,在近期來涉及到的推理問題(Reasoning)或者是視覺問答(Visual Question Answering)等任務上都有不少的嘗試,而少樣本學習(few-shot learning)的難點通常是在於可用樣本有限,所以樣本之間潛在的關聯性在學習過程中就變得非常重要了,通用的前傳網路很難捕捉到樣本之間豐富的關聯資訊,圖網路正好可以彌補這一點:圖網路在節點之間構建的豐富的連線,使得其能夠利用節點之間的資訊傳遞機制得到鄰節點的資訊並且進行聚合,透過一定複雜程度的圖網路,就能夠表達資料個體之間豐富的關聯互動特徵。
常見的圖網路關注於節點的表示與特徵嵌入,為了更充分的利用節點的關聯資訊,本篇論文提出了邊標記圖網路(Edge-Labeling Graph Neural Network,EGNN),類比於關注節點資訊的 GNN,EGNN 透過迭代更新連線邊的資訊直接可以反映節點之間的類內相似度(intra-cluster similarity)與類間差異度(inter-cluster dissimilarity)從而獲取正確的類別分配結果。另一方面,EGNN 在無需 re-train 的情況下能很好地適應不同數目的類別,並且很容易擴充套件到轉換式推理(Transductive Inference)上面,同時在現有的 GNN 方法中,EGNN 在分類任務上實現了大幅的效能提升。
在完整觀察 EGNN 結構之前,我們先理解 EGNN 裡的節點與對應的連線邊資訊的基本更新方式:
在圖中首先更新節點特徵,之後再更新節點之間連線邊的特徵,因為一組節點的特徵有變化,進而也會影響到連線邊上的特徵,以及衡量節點之間的類內相似度(intra-cluster similarity)與類間差異度(inter-cluster dissimilarity)的引數也會對應得到更新,在邊和點的特徵都得到更新之後,計算邊損失(Edge Loss),用 episodic training 的訓練策略來更新 EGNN 的權重。