CVPR 2018 | 阿里巴巴&浙大Poster論文:基於直推式無偏嵌入的零樣本學習

機器之心發表於2019-02-25

阿里巴巴授權釋出,作者:Jie Song、Chengchao Shen、Yezhou Yang、Yang Liu、Mingli Song。

大多數現有的零樣本學習(Zero-Shot Learning,ZSL)方法都存在強偏問題,因此在廣義 ZSL 設定中部署後效能很差。本文提出了一個簡單有效的方法——準完全監督學習(QFSL)來解決此問題。在 AwA2、CUB 和 SUN 資料集上進行的實驗表明,該方法在遵循廣義 ZSL 設定的情況下比現有方法提高了 9.3%至 24.5%,在遵循傳統 ZSL 設定下有 0.2%至 16.2%的提升。

1 引言

在大規模的訓練資料集的支撐下,計算機視覺中的物體識別演算法在近幾年取得了突破性的進展。但是人工收集和標註資料是一項十分耗費人力物力的工作。例如,在細粒度分類中,需要專家來區分不同的類別。對於如瀕臨滅絕的物種,要收集到豐富多樣的資料就更加困難了。在給定有限或者沒有訓練圖片的情況下,現在的視覺識別模型很難預測出正確的結果。

零樣本學習是一類可以用於解決以上問題的可行方法。零樣本學習區分 2 種不同來源的類,源類(source)和目標類(target),其中源類是有標註的影像資料,目標類是沒有標註的影像資料。為了能夠識別新的目標類(無標註),零樣本學習假定源類和目標類共享同一個語義空間。影像和類名都可以嵌入到這個空間中。語義空間可以是屬性(attribute)、詞向量(word vector)等。在該假設下,識別來自目標類的影像可以通過在上述語義空間中進行最近鄰搜尋達成。

根據目標類的無標註資料是否可以在訓練時使用,現有的 ZSL 可以分為 2 類:歸納式 ZSL(inductive ZSL)和直推式 ZSL(transductive ZSL)。對於歸納式 ZSL,訓練階段只能獲取到源類資料。對於直推式 ZSL,訓練階段可以獲取到有標註的源類資料和未標註的目標類資料。直推式 ZSL 希望通過同時利用有標註的源類和無標註的目標類來完成 ZSL 任務。

在測試階段,大多數現有的歸納式 ZSL 和直推式 ZSL 都假定測試影像都來源於目標類。因此,對測試圖片分類的搜尋空間被限制在目標類中。我們把這種實驗設定叫作傳統設定(conventional settings)。然而,在一個更加實際的應用場景中,測試影像不僅來源於目標類,還可能來自源類。這種情況下,來自源類和目標類的資料都應該被考慮到。我們把這種設定叫作廣義設定(generalized settings)。

現有的 ZSL 方法在廣義設定下的效果遠遠不如傳統設定。這種不良表現的主要原因可以歸納如下:ZSL 通過建立視覺嵌入和語義嵌入之間的聯絡來實現新的類別的識別。在銜接視覺嵌入和語義嵌入的過程中,大多數現有的 ZSL 方法存在著強偏(strong bias)的問題(如圖 1 所示):在訓練階段,視覺圖片通常被投影到由源類確定的語義嵌入空間中的幾個固定的點。這樣就導致了在測試階段中,在目標資料集中的新類影像傾向於被分到源類當中。

CVPR 2018 | 阿里巴巴&浙大Poster論文:基於直推式無偏嵌入的零樣本學習
圖 1. 語義嵌入空間中對可見源類的偏向示意圖。藍色圓點表示源類指定的錨點

為了解決以上問題,本文提出了一種新的直推式 ZSL 方法。我們假定有標註的源資料和目標資料都可以在訓練階段得到。一方面,有標註的源資料可以用於學習影像與語義嵌入之間的關係。另外一方面,沒有標註的目標資料可以用於減少由於源類引起的偏置問題。更確切地來說,我們的方法允許輸入影像對映到其他的嵌入點上,而不是像其他 ZSL 方法將輸入影像對映到固定的由源類確定的幾個點上。這樣有效地緩解了偏置問題。

我們將這種方法稱為準全監督學習(Quasi-Fully Supervised Learning, QFSL)。這種方法和傳統的全監督分類工作方式相似,由多層神經網路和一個分類器組成,如圖 2 所示。神經網路模型架構採用現有的主流架構,比如 AlexNet、GoogleNet 或者其他框架。在訓練階段,我們的模型使用有標註的源類資料和沒有標註的目標資料進行端到端的訓練。這使得我們的模型有一兩個明顯的特性:(1)如果未來可以得到目標類的標註資料,那麼標註資料可以直接用於進一步訓練和改進現有的網路模型;(2)在測試階段,我們得到的訓練模型可以直接用於識別來自於源類和目標類的影像,而不需要進行任何修改。

本論文的主要貢獻總結如下:

  • 提出了準全監督學習的方法來解決零樣本學習中的強偏問題。據我們所知,這是第一個採用直推式學習方法來解決廣義設定下零樣本學習問題。
  • 實驗結果表明我們的方法在廣義設定下和傳統設定下都遠超現有的零樣本學習方法。

3 方法

3.1 問題的形式化

假設存在一個源資料集

CVPR 2018 | 阿里巴巴&浙大Poster論文:基於直推式無偏嵌入的零樣本學習

,每張圖片

CVPR 2018 | 阿里巴巴&浙大Poster論文:基於直推式無偏嵌入的零樣本學習

與相應的標籤

CVPR 2018 | 阿里巴巴&浙大Poster論文:基於直推式無偏嵌入的零樣本學習

對應,其中

CVPR 2018 | 阿里巴巴&浙大Poster論文:基於直推式無偏嵌入的零樣本學習

, S 表示源類中類的個數。目標資料集

CVPR 2018 | 阿里巴巴&浙大Poster論文:基於直推式無偏嵌入的零樣本學習

, 每張圖片

CVPR 2018 | 阿里巴巴&浙大Poster論文:基於直推式無偏嵌入的零樣本學習

與相應的標籤

CVPR 2018 | 阿里巴巴&浙大Poster論文:基於直推式無偏嵌入的零樣本學習

對應,其中

CVPR 2018 | 阿里巴巴&浙大Poster論文:基於直推式無偏嵌入的零樣本學習

, T 表示目標類中類的個數。ZSL 的目標就是學習如下所示的預測函式 f(∙):

CVPR 2018 | 阿里巴巴&浙大Poster論文:基於直推式無偏嵌入的零樣本學習

其中 F(∙) 是一個得分函式,其目標是正確的標註比其他不正確的標註具有更高的得分。W 是模型 F(∙) 的引數,F(∙) 通常使用如下的雙線性形式:

CVPR 2018 | 阿里巴巴&浙大Poster論文:基於直推式無偏嵌入的零樣本學習

其中θ(x) 和Φ(y) 分別表示視覺嵌入和語義嵌入。得分函式通常使用帶正則化的目標函式進行優化:

CVPR 2018 | 阿里巴巴&浙大Poster論文:基於直推式無偏嵌入的零樣本學習

其中 L_p 表示分類損失,用於學習視覺嵌入和語義嵌入之間的對映。Ω 表示用於約束模型複雜度的正則項。

本文假設給定標註源資料集 D^s,無標註目標資料集

CVPR 2018 | 阿里巴巴&浙大Poster論文:基於直推式無偏嵌入的零樣本學習

和語義嵌入Φ,學習 ZSL 模型,使得其既能在傳統設定下又能在廣義設定下獲取良好的表現。

CVPR 2018 | 阿里巴巴&浙大Poster論文:基於直推式無偏嵌入的零樣本學習
圖 2. QFSL模型的總體架構。標記和未標記的資料都用於訓練相同的模型。為便於理解,將其分為兩個部分進行描述

3.2 QFSL 模型

不同於以上描述的雙線性形式,我們將得分函式 F 設計成非線性形式。整個模型由深度神經網路實現。模型包括 4 個模組:視覺嵌入子網路,視覺-語義銜接子網路,得分子網路和分類器。視覺嵌入子網路將原始影像對映到視覺嵌入空間。視覺-語義銜接子網路將視覺嵌入對映到語義嵌入子網路。得分子網路在語義空間中產生每一類的得分。分類器根據得分輸出最終的預測結果。所有的模組都是可微分的,包括卷積層,全連線層,ReLU 層和 softmax 層。因此,我們的模型可以進行端到端的訓練。

3.2.1 視覺嵌入子網路

現有的大多數模型採用了 CNN 提取得到的特徵作為視覺嵌入。在這些方法中,視覺嵌入函式θ是固定的。這些方法並沒有充分利用深度 CNN 的強大的學習能力。本文采用了預訓練的 CNN 模型來進行視覺嵌入。我們的視覺嵌入模型的主要不同之處在於可以和其他模組一起進行優化。視覺嵌入模組的引數記為 W_θ。除非特別說明,我們把第一個全連線層的輸出作為視覺嵌入。

3.2.2 視覺-語義銜接子網路

銜接影像和語義嵌入之間的關係對 ZSL 來說很重要。這種關係可以通過線性函式或者非線性函式來建模。本文采用了非線性函式φ將視覺嵌入對映到語義嵌入。φ由若干個全連線層來實現,其中每一個全連線層後面跟了一個非線性啟用函式:ReLU。銜接函式的設計依賴於上述的視覺嵌入子網路的架構。具體來說,我們的設計是按照所選擇 CNN 模型的全連線層來設計的。視覺-語義銜接子網路和視覺嵌入網路一起進行優化。視覺-語義銜接子網路引數記作 W_φ。

3.2.3 得分子網路

銜接視覺嵌入和語義嵌入之後,識別任務可以通過在語義嵌入空間中使用最近鄰搜尋來實現。

給定一張影像,我們首先通過視覺嵌入子網路得到它的視覺嵌入。然後,利用視覺-語義銜接子網路,完成從視覺嵌入到語義嵌入的對映。最後,我們通過內積計算得到投影得到的視覺嵌入和語義嵌入的得分。因此,得分函式可以表示如下:

CVPR 2018 | 阿里巴巴&浙大Poster論文:基於直推式無偏嵌入的零樣本學習

其中 W_θ和 W_φ分別為視覺嵌入函式和視覺-語義銜接函式的權重,Φ^* (y) 是 y 的歸一化語義嵌入:

CVPR 2018 | 阿里巴巴&浙大Poster論文:基於直推式無偏嵌入的零樣本學習

。得分函式由單個全連線層來實現。它的權重使用源類和目標類的歸一化語義:

CVPR 2018 | 阿里巴巴&浙大Poster論文:基於直推式無偏嵌入的零樣本學習

來初始化。和視覺嵌入子網路和視覺-語義銜接子網路不同的是,得分子網路的權重是固定的,在訓練階段不參與更新。通過這種方式,我們的模型將影像

CVPR 2018 | 阿里巴巴&浙大Poster論文:基於直推式無偏嵌入的零樣本學習

投影到與視覺嵌入

CVPR 2018 | 阿里巴巴&浙大Poster論文:基於直推式無偏嵌入的零樣本學習

相近的方向上。

需要注意的是目標類的資料沒有標註,這些資料在我們的方法中用到了訓練階段當中。因此,在訓練階段,我們的模型對於一張給定的影像,產生了 S+T 個得分。

3.2.4 分類器

經過得分函式後,我們使用 (S+T) 路的 softmax 分類器產生了所有類的概率。輸入影像的預測結果為概率最高的那個類。

3.3 模型優化

我們的方法採用了類似於由 (S+T) 路的 softmax 分類器的全監督分類模型,用來分類目標類和源類。但是,只有源類資料是有標註的,目標類資料沒有標註。我們定義了準全監督損失函式來訓練提出的模型:

CVPR 2018 | 阿里巴巴&浙大Poster論文:基於直推式無偏嵌入的零樣本學習

通常,傳統的全監督分類器的損失函式包括分類損失 L_p 和正則化損失Ω。和傳統定義不同,我們提出的 QFSL 結合了一個額外的偏置損失 L_b 來緩解強偏問題:

CVPR 2018 | 阿里巴巴&浙大Poster論文:基於直推式無偏嵌入的零樣本學習

其中,p_i 表示預測為類 i 的概率。給定一個來自目標類的例項,該損失鼓勵模型增加所有目標類的概率和。這樣可以防止目標類被對映到源類中。

對於分類損失 L_p,我們採用了交叉熵。對於正則化損失 Ω,L_2 範數來約束訓練引數 W={W_θ,W_φ }。λ 和 γ 用於平衡不同損失之間的權重,通過交叉驗證來確定。在訓練階段,所有標註的資料和未標註的資料混合在一起作為訓練資料。模型使用隨機梯度下降演算法 (SGD) 進行優化。每一個批 (batch) 訓練影像從混合資料集中隨機抽取。實驗結果表明我們的方法不僅有效地避免了偏置問題,還幫助建立起了更好的視覺嵌入和語義嵌入之間的聯絡。

4 實驗

4.1 資料集

我們在三個資料集上評估了我們的方法。這三個資料集分別為 AwA2,CUB,SUN。在實驗中,我們採用屬性作為語義空間,用類平均準確度衡量模型效果。

4.2 在傳統設定下的效果比較

首先我們在傳統設定下對我們方法和現有方法。用來做對比的現有方法分為兩類:一類是歸納式方法,包括 DAP、CONSE、SSE、ALE、DEVISE、SJE、ESZSL、SYNC;另一類是直推式方法,包含 UDA、TMV、SMS。與此同時,還比較了一個潛在的 baseline(標記為 QFSL-):只用有標註的源資料來訓練我們的模型。實驗效果如表 1。可以看出,我們的方法大幅度(4.5~16.2%)提升了分類準確度。

CVPR 2018 | 阿里巴巴&浙大Poster論文:基於直推式無偏嵌入的零樣本學習
表 1. 在傳統設定下的實驗比較

4.3 在廣義設定下的效果比較

大多數現有直推式方法在測試階段都採用了同訓練階段同樣的資料來評估效能。然而,如果我們的方法也採用這種方式來評估效果是很不合理的。因為我們的方法已經利用到了無標籤的資料來源於目標類這一監督資訊。為了解決這一問題,我們將目標資料平分為兩份,一份用來訓練,另一份用來測試。然後交換這兩份資料的角色,再重新訓練一個模型。最終的效果為這兩個模型的平均。我們比較了我們的方法和若干現有方法,以及一個隱含的 baseline:先訓練一個二分類器來區分源資料和目標資料,然後再在各自搜尋空間中分類。實驗結果如表 2。

CVPR 2018 | 阿里巴巴&浙大Poster論文:基於直推式無偏嵌入的零樣本學習

可以看出,我們模型的整體效能(調和平均數 H)有著 9.3~24.5 的明顯提高。該項指標的提高主要得益於在目標資料上的效果提升,同時又沒有在源資料上大幅度降低準確度。該結果表明,我們的方法能夠很大程度上緩解強偏問題。

5 討論

現實世界中,目標類的數量可能遠遠高於源類數量。然而,大多數現有 ZSL 資料集的源、目標資料劃分都違背了這一點。比如,在 AwA2 中,40 個類用來做訓練,10 個類用來做測試。我們在實驗上給出了隨著源資料類別的增加,QFSL 在效果上如何變化。該實驗在 SUN 資料集上進行,72 類作為目標類,隨機選取剩下的類作為源類。我們嘗試了 7 個大小不同的源類集,類的數量分別為 {100,200,300,450,550,600,645}。用這些不同大小的源類作為訓練集,測試我們的方法,效果如圖 3。由圖可以看出,隨著類別增加,模型能夠學習到更多的知識,其在目標資料集上準確度越來越高。同時,由於源資料和目標資料變得越來越不平衡,強偏問題越來越嚴重。我們方法能夠緩解強偏問題,因而其在效果上的優越性也越來越明顯。

CVPR 2018 | 阿里巴巴&浙大Poster論文:基於直推式無偏嵌入的零樣本學習
圖 3. 準全監督在 SUN 資料集上效果

6 結論

本文提出了一種用於學習 ZSL 無偏嵌入的直接但有效的方法。這種方法假設標註的源資料和未標註的目標資料在模型訓練的過程中可以使用。一方面,將標註的源資料對映到語義空間中源類對應的點上。另外一方面,將沒有標註的目標資料對映到語義空間中目標類對應的點上,從而有效地解決了模型預測結果向源類偏置的問題。在各種基準資料集上的實驗表明我們的方法在傳統設定和廣義設定下,大幅超過了現有的 ZSL 方法。

論文:Transductive Unbiased Embedding for Zero-Shot Learning

CVPR 2018 | 阿里巴巴&浙大Poster論文:基於直推式無偏嵌入的零樣本學習

論文連結:arxiv.org/abs/1803.11…

摘要:大多數現有的零樣本學習(Zero-Shot Learning,ZSL)方法都存在強偏問題:訓練階段看不見(目標)類的例項在測試時往往被歸類為所看到的(源)類之一。因此,在廣義 ZSL 設定中部署後,它們的效能很差。在本文,我們提出了一個簡單而有效的方法,稱為準完全監督學習(QFSL),來緩解此問題。我們的方法遵循直推式學習的方式,假定標記的源影像和未標記的目標影像都可用於訓練。在語義嵌入空間中,被標記的源影像被對映到由源類別指定的若干個嵌入點,並且未標記的目標影像被強制對映到由目標類別指定的其他點。在 AwA2,CUB 和 SUN 資料集上進行的實驗表明,我們的方法在遵循廣義 ZSL 設定的情況下比現有技術的方法優越 9.3%至 24.5%,在遵循傳統 ZSL 設定下有 0.2%至 16.2%的提升。

相關文章