Zero-shot Learning零樣本學習 論文閱讀(四)——Zero-Shot Recognition using Dual Visual-Semantic Mapping Paths
Zero-shot Learning零樣本學習 論文閱讀(四)——Zero-Shot Recognition using Dual Visual-Semantic Mapping Paths
這篇2017年的論文提供瞭解決semantic gap問題的簡單做法,所謂的semantic gap也就是從圖片中提取的低層特徵到高層語義之間存在的“語義鴻溝”問題。這與上一篇論文提到的領域漂移問題都是zero-shot learning技術瓶頸問題之一。
背景
流形學習
首先,什麼是流形?
流形(manifold)是區域性具有歐式空間性質的空間,包括各種緯度的曲線曲面,例如球體、彎曲的平面等。流形的區域性和歐式空間是同構的。
流形學習(manifold learning)是機器學習、模式識別中的一種方法,在維數約簡方面具有廣泛的應用。它的主要思想是將高維的資料對映到低維,使該低維的資料能夠反映原高維資料的某些本質結構特徵。流形學習的前提是有一種假設,即某些高維資料,實際是一種低維的流形結構嵌入在高維空間中。流形學習的目的是將其對映回低維空間中,揭示其本質。
語義間隔(semantic gap)
樣本的特徵往往是視覺特徵,比如用深度網路提取到的特徵,而語義表示卻是非視覺的,這直接反應到資料上其實就是:樣本在特徵空間中所構成的流型與語義空間中類別構成的流型是不一致的。而語義間隔問題就是樣本在特徵空間中的流形與語義空間中的類別構成的流形是有差異的。解決此問題的思路便是將二者的流型調整至一致。
演算法原理
演算法思路
要解決的問題是將特徵空間中的流形與語義空間中的類別構成的流形,最簡單的思路便是將類別的語義表示調整到樣本的流形,即用類別語義表示的K近鄰樣本點重新表示類別語義。
符號設定
- 可見(訓練)標籤集 L s = { l s 1 , l s 2 … … l s m } L_{s}=\left\{l_{s}^{1}, l_{s}^{2} \ldots \ldots l_{s}^{m}\right\} Ls={ls1,ls2……lsm} (共有 m m m 個類) ,其在語義空間中對應的prototype集為 K s = { k s 1 , k s 2 … … k s m } K_{s}=\left\{k_{s}^{1}, k_{s}^{2} \ldots \ldots k_{s}^{m}\right\} Ks={ks1,ks2……ksm};
- 不可見 (測試) 標籤集
L
u
=
{
l
u
1
,
l
u
2
…
…
l
u
l
}
L_{u}=\left\{l_{u}^{1}, l_{u}^{2} \ldots \ldots l_{u}^{l}\right\}
Lu={lu1,lu2……lul}
(共 l l l 個類) ,其在語義空間中對應的prototype集為 $ K u = { k u 1 , k u 2 … … k u l } K_{u}=\left\{k_{u}^{1}, k_{u}^{2} \ldots \ldots k_{u}^{l}\right\} Ku={ku1,ku2……kul}; - 特徵表徵集 X s = { x 1 , x 2 , … … , x n } X_{s}=\left\{x_{1}, x_{2} ,\ldots \ldots, x_{n}\right\} Xs={x1,x2,……,xn},其中 x i x_{i} xi 對應第 i i i 個影像的提取特徵;
- 訓練集 D s = { ( x i , y i , k i ) } i = 1 n , x i ∈ X s D_{s}=\left\{\left(x_{i}, y_{i}, k_{i}\right)\right\}_{i=1}^{n}, \quad x_{i} \in X_{s} Ds={(xi,yi,ki)}i=1n,xi∈Xs, y i ∈ L s y_{i} \in L_{s} yi∈Ls.
演算法流程
訓練:
- 使用傳統的方法求解特徵空間到屬性空間的對映
f
s
f_{s}
fs,即求解投影矩陣
W
W
W
W = argmin W l ( W X , K s ) + Ω ( W ) W=\operatorname{argmin}_{W} l\left(W X, K_{s}\right)+\Omega(W) W=argminWl(WX,Ks)+Ω(W)
其中 l ( X , Y ) l(X, Y) l(X,Y) 為損失函式, Ω ( W ) \quad \Omega(W) Ω(W) 為正則化項 - 對於所有的
k
s
i
k_{s}^{i}
ksi,對所有的訓練樣本在語義空間的投影
{
f
s
(
x
i
)
}
i
=
1
n
\left\{f_{s}\left(x_{i}\right)\right\}_{i=1}^{n}
{fs(xi)}i=1n
求m(m為超引數) 個最近鄰,並賦值: k ~ s i = 1 m ∑ m 個 k s i 的最近鄰 f s ( x i ) \tilde{k}_{s}^{i}=\frac{1}{m} \sum_{m \text{個}k_{s}^{i} \text { 的最近鄰 }} f_{s}\left(x_{i}\right) k~si=m1∑m個ksi 的最近鄰 fs(xi)
並用 k ~ s i \tilde{k}_{s}^{i} k~si 構建新的語義空間 s ~ \tilde{s} s~ - 反覆迭代1,2直至收斂.
測試:
對於測試特徵矩陣
X
u
,
X_{u},
Xu, 如同step2,對於所有的
k
u
i
k_{u}^{i}
kui 求m個最近鄰並賦值構建新的語 義空間,並一樣進行迭代,最後得到最終的對映
f
~
s
,
u
~
,
\tilde{f}_{s}, \tilde{u},
f~s,u~, 再通過餘弦距離輸出預測:
j
=
argmin
j
d
(
f
s
(
x
j
)
,
k
c
)
j=\operatorname{argmin}_{j} d\left(f_{s}\left(x_{j}\right), \quad k_{c}\right)
j=argminjd(fs(xj),kc)
相關文章
- Zero-shot Learning零樣本學習 論文閱讀(三)——Semantic Autoencoder for Zero-Shot Learning
- Zero-shot Learning零樣本學習 論文閱讀(一)——Learning to detect unseen object classes by between-class attributeObject
- [論文閱讀] Hector MappingAPP
- Text Augmented Spatial-aware Zero-shot Referring Image Segmentation論文閱讀筆記(EMNLP23 Findings)Segmentation筆記
- [論文閱讀] Residual Attention(Multi-Label Recognition)
- 論文閱讀 dyngraph2vec: Capturing Network Dynamics using Dynamic Graph Representation LearningAPT
- 論文閱讀 Inductive Representation Learning on Temporal Graphs
- 論文閱讀:《Learning by abstraction: The neural state machine》Mac
- 論文閱讀:End to End Chinese Lexical Fusion Recognition with Sememe Knowledge
- [論文閱讀] Temporal Extension Module for Skeleton-Based Action Recognition
- 多模態學習之論文閱讀:《PREDICTING AXILLARY LYMPH NODE METASTASIS IN EARLY BREAST CANCER USING DEEP LEARNING ON PRIMARY TUMOR BIOPSY SLIDES》ASTIDE
- 深度學習論文翻譯解析(十一):OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks深度學習
- 並行多工學習論文閱讀(五):論文閱讀總結並行
- 論文閱讀-Causality Inspired Representation Learning for Domain GeneralizationAI
- 【論文筆記】A Survey on Deep Learning for Named Entity Recognition筆記
- [論文閱讀] VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION
- 《A Discriminative Feature Learning Approach for Deep Face Recognition》閱讀筆記APP筆記
- 論文閱讀:Sequence to sequence learning for joint extraction of entities and relations
- 論文閱讀 TEMPORAL GRAPH NETWORKS FOR DEEP LEARNING ON DYNAMIC GRAPHS
- 【論文閱讀】CVPR2022: Learning from all vehicles
- [論文閱讀筆記] Adversarial Learning on Heterogeneous Information Networks筆記ORM
- [論文閱讀筆記] Are Meta-Paths Necessary, Revisiting Heterogeneous Graph Embeddings筆記
- 深度學習論文閱讀路線圖深度學習
- 論文閱讀:Robust and Privacy-Preserving Collaborative Learning: A Comprehensive Survey
- [論文閱讀筆記] Adversarial Mutual Information Learning for Network Embedding筆記ORM
- Image Super-Resolution Using DeepConvolutional Networks論文閱讀筆記筆記
- 論文閱讀:Borrowing wisdom from world: modeling rich external knowledge for Chinese named entity recognition
- 論文閱讀翻譯之Deep reinforcement learning from human preferences
- 論文閱讀《Beyond a Gaussian Denoiser: Residual Learning of Deep CNN for Image Denoising》CNN
- Beyond Fixed Grid: Learning Geometric Image Representation with a Deformable Grid——論文閱讀ORM
- 多模態學習之論文閱讀:《Multi-modal Learning with Missing Modality in Predicting Axillary Lymph Node Metastasis 》AST
- 2018-07-28-論文閱讀(1)-Learning Ensembled for Structured Prediction RulesStruct
- What Are Zero-Shot Prompting and Few-Shot Prompting
- 論文閱讀20241117
- GeoChat論文閱讀
- 論文閱讀:SiameseFC
- 並行多工學習論文閱讀(四):去偏lasso實現高效通訊並行
- 分散式多工學習論文閱讀(四):去偏lasso實現高效通訊分散式