Zero-shot Learning零樣本學習論文閱讀（三）——Semantic Autoencoder for Zero-Shot Learning

Semantic Autoencoder for Zero-Shot Learning提出的演算法被簡稱為SAE，首次引入了自編碼器結構，一定程度上解決了zero-shot learning中主要問題之一的領域漂移(domain shift)問題，直接導致之後的新方法大都採用了這種自編碼器的結構。

背景

領域漂移(domain shift)

領域漂移問題首次被提出是在《Transductive Multi-View Zero-Shot Learning》這篇文章中，簡單來說就是同一屬性在不同的類別中，視覺特徵的差異可能很大。比如，斑馬和豬都有尾巴，那麼在類別語義表示中，對於“有尾巴”這一屬性，斑馬和豬都是值“1”，但是在圖片資料中，兩者尾巴的視覺特徵卻差異很大，如果用豬的圖片來訓練，需要預測的是斑馬，就很難達到預期的目標。

自編碼器

自編碼器（Autoencoder）是一種利用反向傳播演算法使得輸出值等於輸入值的神經網路，它先將輸入壓縮成潛在空間表徵，然後通過這種表徵來重構輸出。
例如，我們輸入一張圖片，通過encoder將其現壓縮成潛在表徵(Latent Representation)，再通過decoder將潛在表徵重構成圖片作為輸出。
在這裡插入圖片描述
因此，自編碼器由兩部分組成：

編碼器，將輸入壓縮成潛在空間表徵，用函式 $h = f (x)$ 表示；
解碼器，重構潛在空間表徵得到輸出，用函式 $s = g (h)$ 表示。

自編碼器就可以用函式 $g (f (x)) = s$ 表示， $x$ 是輸入， $s$ 是輸出，讓 $x$ 和 $s$ 相近。
那麼，讓輸出和輸入的東西一樣，那這個自編碼器還有什麼用呢？
其實，我們的目的在於，通過訓練輸出值等於輸入值的自編碼器，讓潛在表徵 $h$ 作為有價值的屬性。
通常，為了從自編碼器獲得有用特徵，我們會限制h的維度使其小於輸入x，使得自編碼器能學習到資料中最重要的特徵。

演算法原理

思路

在這裡插入圖片描述

在傳統的自編碼器的目標函式 $min_{W,W^*}\|X-W^*WX\|^2_F$ 中，為了使中間層能夠表徵屬性，在這個目標函式中加入一個約束 $W X = S$ ， $S$ 為屬性對應的語義向量，即 $min_{W,W^*}\|X-W^*WX\|^2_F,s.t.WX=S$ ，以此來最優化求解。

設定

$\quad X \in R^{d * N}$ 代表 $d$ 維共 $N$ 個特徵向量組成的矩陣，投影矩陣 $\in R^{k * d},$ 將特徵向量投影到語義空間, 得到latent representation $\in R^{k * N},$ 假設 $k < d$ ，通過一個投影矩陣 $W^{*} \in R^{k * d},$ 將語義向量投影到特徵空間。 $Y=\left\{y_{1}, y_{2}, \ldots \ldots y_{s}\right\}$ 為s個可見類標籤的標籤向量, $Z=\left\{z_{1}, z_{2}, \ldots \ldots,z_{u}\right\}$ 為u個不可見類標籤的標籤向量, $\cap Z=\phi$ 。 $S_{Y}=\left\{s_{1}, s_{2}, \ldots . s_{s}\right\}$ 為可見類標籤的prototype的集合, $S_{Z}=\left\{s_{1}, s_{2}, \ldots . . s_{u}\right\}$ 為不可
見類標籤的prototype的集合, $X_{Y}=\left\{\left(x_{i}, y_{i}, s_{i}\right)\right\} \in R^{d * N}$ 為擁有N個k維訓練樣本 $x_{i}$ 的訓練集,測試集 $X_{Z}=\left\{\left(x_{i}, y_{i}, s_{i}\right)\right\}$ 其中 $y_{i}, s_{i}$ 未知.

演算法原理

在這裡插入圖片描述

上圖表示了本文中的自編碼器結構，以傳統的自編碼器的思想，本問題的目標函式為 $min_{W,W^*}\|X-W^*WX\|^2_F$
為了使中間層能夠表徵屬性，在這個目標函式中加入一個約束 $W X = S$ ， $S$ 是實現定義好的屬性對應的語義向量，目標函式為： $min_{W,W^*}\|X-W^*WX\|^2_F,s.t.WX=S$
考慮到zero-shot learning旨在提高大規模計算機視覺的速度，為了減少引數數量，設定 $W^*=W^T$ ，則目標函式可以化為：
$min_{W}\|X-W^TS\|^2_{Fro},s.t.WX=S$
顯然，約束 $W X = S$ 有點過於強了，所以將其變為一個軟約束加入目標函式：
$min_{W}\|X-W^TS\|^2_{Fro}+\lambda \|WX=S\|^2_{Fro}$
其中， $\lambda$ 為超引數
顯然這是一個凸優化問題，通過對 $W$ 求導，令導數為零，求解 $W$ 即可。
$\frac{\partial\left(\left\|X-W^{\top} S\right\|_{F r o}^{2}+\lambda\|W X-S\|_{F r o}^{2}\right)}{\partial W}$
$=\frac{\partial\left(t r\left(\left(X^{\top}-S^{\top} W\right)^{\top}\left(X^{\top}-S^{\top} W\right)+\lambda(W X-S)^{\top}(W X-S)\right)\right)}{\partial W}$
$=\frac{\partial\left(t r\left(W^{\top} S S^{\top} W-2 W^{\top} S X^{\top}+\lambda\left(X^{\top} W^{\top} W X-2 S^{\top} W X\right)\right)\right.}{\partial W}$
$=\frac{\partial t r\left(W^{\top} S S^{\top} W\right)}{\partial W}-2 \frac{\partial t r\left(W^{\top} S X^{\top}\right)}{\partial W}+\lambda \frac{\partial t r\left(X^{\top} W^{\top} W X\right)}{\partial W}-2 \lambda \frac{\partial t r\left(S^{\top} W X\right)}{\partial W}$
$=\frac{\partial t r\left(X^{\top} S W\right)}{\partial W}+\lambda \frac{\partial t r\left(W X X^{\top} W^{\top}\right)}{\partial W}-2 \lambda \frac{\partial t r\left(X S^{\top} W\right)}{\partial W}$
$S^{\top} W-2 S X^{\top}+2 \lambda W X X^{\top}-2 \lambda S X^{\top}$
$= 0$
令 $S^{\top}, B=\lambda X X^{\top}, C=(1+\lambda) S X^{\top}$
則等式可以寫作：
$\quad A W+W B=C$
此為著名的Sylvester方程的標準形式，可利用Bartels-Stewart algorithm求解，值得注意的是，Bartels-Stewart algorithm演算法的複雜度為 $o(d^3)$ ,與訓練集大小無關，因此在大規模資料集上同樣可以表現優異。

具體流程

對於測試特徵向量 $x_i$ ，有兩種方式給出預測，其中距離度量記作 $D (x, y)$

$S_{Z_{j}}$ 為未見類標籤集中第 $j$ 個類在屬性空間中對應的屬性向量，也就是原型prototype
$\Phi\left(x_{i}\right)=\operatorname{argmin}_{j} D\left(W x_{i}, S_{Z_{j}}\right)$
$s_{i}$ 為不可見標籤集中的一個元素
$\Phi\left(x_{i}\right)=\operatorname{argmin}_{j} D\left(x_{i}, W s_{j}\right)$
$\Phi\left(x_{i}\right)$ 的值為輸出的預測值。

實驗結果表明兩種形式輸出非常相似。

參考文獻

[1]Kodirov E , Xiang T , Gong S . Semantic Autoencoder for Zero-Shot Learning[J]. 2017.

Zero-shot Learning零樣本學習 論文閱讀（三）——Semantic Autoencoder for Zero-Shot Learning

Zero-shot Learning零樣本學習 論文閱讀（三）——Semantic Autoencoder for Zero-Shot Learning

背景

領域漂移(domain shift)

自編碼器

演算法原理

思路

設定

演算法原理

具體流程

參考文獻

相關文章

Zero-shot Learning零樣本學習論文閱讀（三）——Semantic Autoencoder for Zero-Shot Learning

Zero-shot Learning零樣本學習論文閱讀（三）——Semantic Autoencoder for Zero-Shot Learning