NeurIPS 2019 少樣本學習研究亮點全解析

機器之心發表於2019-12-27

針對此類痛點,少樣本學習被提出並進行了多個應用場景下的嘗試。本屆 NeurIPS 2019 也收錄了近十篇關於少樣本學習的文章,他們或是從資料增強的角度出發,或是從特徵表徵(Feature Representation)的加強提出了新的思路。本文涵蓋了本屆 NeurIPS 收錄的少樣本學習文章,著眼於工作的實用性,創新性以及延續性三個維度,詳解分析了三篇筆者認為非常具有啟發性和實用性的少樣本學習文章,概述了其餘幾篇的貢獻和亮點,以期給感興趣的讀者呈現關於該方向最新的研究進展,以及對後續研發的啟示。

Few-shot Video-to-Video Synthesis

類比於 Image-to-Image, 將特定場景下的輸入影像轉換到另一場景生成新圖,Wang et al 在 2018 提出的視訊到視訊的合成(Video-to-Video synthesis, 簡稱 vid2vid)將連續多幀影像構成的視訊,轉換到新場景下並生成新的語義場景下的視訊。本文是作者在該文基礎上做的擴充套件。參考下圖,根據對應的人體關鍵點姿態運動視訊(pose videos),模型相應合成真人的動作視訊。之前提出 Vid2vid 文獻的侷限也非常明顯:資料需求量太大,合成模型表達能力有限。首先,對於合成某人真人運動視訊要求模型有大量目標物件的影像來完成訓練,對資料量的要求巨大,其次單個姿態到真人視訊合成 vid2vid 模型通常只能合成訓練集裡包括的人體個體,無法生成任何不處於訓練集中的人的運動視訊。

NeurIPS 2019 少樣本學習研究亮點全解析

基於以上限制,few-shot vid2vid 方法提出在測試階段餵給模型少量目標樣本的影像,學習合成未見過的目標個體或者場景的對應視訊。參考右圖示意,不需要為每個人和每個特定場景都尋找大量的訓練樣本來合成視訊,對於未知個體,可以通過 few-shot vid2vid 模型本身的場景泛化能力,使得測試階段提供少量目標影像就可以合成同樣的真人運動視訊。相較於已有的 vid2vid 工作,few-shot vid2vid 工作的亮點集中於:1. 除了人體姿態的語義視訊,額外增加了少量目標真人的圖片作為模型測試階段的額外輸入。2. 使用了新穎的網路引數生成(Network Weight Generation)機制, 利用這少量的目標圖片訓練了一個模組來生成網路對應的引數。

相關文章