Zero-shot Learning零樣本學習論文閱讀（四）——Zero-Shot Recognition using Dual Visual-Semantic Mapping Paths

River_J777發表於2020-12-31

原文網址 : https://blog.csdn.net/River_J777/article/details/111772176

Zero-shot Learning零樣本學習論文閱讀（四）——Zero-Shot Recognition using Dual Visual-Semantic Mapping Paths

這篇2017年的論文提供瞭解決semantic gap問題的簡單做法，所謂的semantic gap也就是從圖片中提取的低層特徵到高層語義之間存在的“語義鴻溝”問題。這與上一篇論文提到的領域漂移問題都是zero-shot learning技術瓶頸問題之一。

背景

流形學習

首先，什麼是流形？
流形(manifold)是區域性具有歐式空間性質的空間，包括各種緯度的曲線曲面，例如球體、彎曲的平面等。流形的區域性和歐式空間是同構的。
流形學習（manifold learning）是機器學習、模式識別中的一種方法，在維數約簡方面具有廣泛的應用。它的主要思想是將高維的資料對映到低維，使該低維的資料能夠反映原高維資料的某些本質結構特徵。流形學習的前提是有一種假設，即某些高維資料，實際是一種低維的流形結構嵌入在高維空間中。流形學習的目的是將其對映回低維空間中，揭示其本質。

語義間隔(semantic gap)

樣本的特徵往往是視覺特徵，比如用深度網路提取到的特徵，而語義表示卻是非視覺的，這直接反應到資料上其實就是：樣本在特徵空間中所構成的流型與語義空間中類別構成的流型是不一致的。而語義間隔問題就是樣本在特徵空間中的流形與語義空間中的類別構成的流形是有差異的。解決此問題的思路便是將二者的流型調整至一致。

演算法原理

演算法思路

要解決的問題是將特徵空間中的流形與語義空間中的類別構成的流形，最簡單的思路便是將類別的語義表示調整到樣本的流形，即用類別語義表示的K近鄰樣本點重新表示類別語義。

符號設定

可見（訓練）標籤集 $L_{s}=\left\{l_{s}^{1}, l_{s}^{2} \ldots \ldots l_{s}^{m}\right\}$ (共有 $m$ 個類) ，其在語義空間中對應的prototype集為 $K_{s}=\left\{k_{s}^{1}, k_{s}^{2} \ldots \ldots k_{s}^{m}\right\}$ ；
不可見 (測試) 標籤集 $L_{u}=\left\{l_{u}^{1}, l_{u}^{2} \ldots \ldots l_{u}^{l}\right\}$
(共 $l$ 個類) ，其在語義空間中對應的prototype集為 $ $K_{u}=\left\{k_{u}^{1}, k_{u}^{2} \ldots \ldots k_{u}^{l}\right\}$ ;
特徵表徵集 $X_{s}=\left\{x_{1}, x_{2} ,\ldots \ldots, x_{n}\right\}$ ,其中 $x_{i}$ 對應第 $i$ 個影像的提取特徵；
訓練集 $D_{s}=\left\{\left(x_{i}, y_{i}, k_{i}\right)\right\}_{i=1}^{n}, \quad x_{i} \in X_{s}$ , $y_{i} \in L_{s}$ .

演算法流程

訓練：

使用傳統的方法求解特徵空間到屬性空間的對映 $f_{s}$ ,即求解投影矩陣 $W$
$W=\operatorname{argmin}_{W} l\left(W X, K_{s}\right)+\Omega(W)$
其中 $l (X, Y)$ 為損失函式, $\quad \Omega(W)$ 為正則化項
對於所有的 $k_{s}^{i}$ ,對所有的訓練樣本在語義空間的投影 $\left\{f_{s}\left(x_{i}\right)\right\}_{i=1}^{n}$
求m（m為超引數) 個最近鄰，並賦值: $\tilde{k}_{s}^{i}=\frac{1}{m} \sum_{m \text{個}k_{s}^{i} \text { 的最近鄰 }} f_{s}\left(x_{i}\right)$
並用 $\tilde{k}_{s}^{i}$ 構建新的語義空間 $\tilde{s}$
反覆迭代1，2直至收斂.

測試：
對於測試特徵矩陣 $X_{u},$ 如同step2，對於所有的 $k_{u}^{i}$ 求m個最近鄰並賦值構建新的語義空間，並一樣進行迭代，最後得到最終的對映 $\tilde{f}_{s}, \tilde{u},$ 再通過餘弦距離輸出預測：
$j=\operatorname{argmin}_{j} d\left(f_{s}\left(x_{j}\right), \quad k_{c}\right)$

Zero-shot Learning零樣本學習 論文閱讀（四）——Zero-Shot Recognition using Dual Visual-Semantic Mapping Paths