論文連結:Unlocking the Power of Cross-Dimensional Semantic Dependency for Image-Text Matching (ACM MM23)
程式碼主頁:https://github.com/CrossmodalGroup/X-Dim
主要優勢 (Highlights):
1)模型設計簡單有效,僅改變視覺特徵和文字特徵之間相似度計算的 維度對應聚合方式,在基礎基線SCAN上取得顯著效能提升,達到SOTA;
2)理論上分析,所提出方法等價於在相似度計算過程中引入核函式,理論上可以將原始表徵空間從有限的$d$維變換到無限維高維空間,使特徵表示更具備可區分性;
3)在可解釋性上,對錶徵空間中維度的語義表徵傾向具有可解釋性,同時所提方法能夠促進更好的跨模態表徵學習。
一、前言 Motivation
影像-文字關聯匹配的一般正規化首先是將影像和文字對映到一個共享表示空間中,然後檢查這兩種模態之間的語義相似程度,如圖1(a)所示。基於模態表示的粒度,現有方法大致可以分為兩類:全域性和區域性。全域性方法傾向於學習整個影像和文字的整體表示,以直接測量影像-文字相似性。與粗粒度的整體表示相比,區域性方法考慮顯著影像區域和文字詞之間的細粒度對應關係,因此通常會導致更好的效能。其關鍵思想是學習所有單詞-區域語義相似性以獲取整體影像-文字關聯性,其中廣為研究的交叉注意力SCAN及其變種是這一研究路線中的主流方式。對於任意單詞特徵$\boldsymbol{u} =\{u_i\}_{i=1}^{d}$與區域特徵$\boldsymbol{v} = \{v_i\}_{i=1}^{d}$之間的語義相似性,如圖1(a)所示,現有方法通常採用隱式的獨立聚合來反映所有維度對應關係,即$\sum_{i=1}^{d} s_i$,其中$s_i$可以透過內積操作中的標量$v_i$和標量$u_i$的乘積確定。換言之,對於共享表示空間中跨模態對應向量$\boldsymbol{s} = \{s_i\}_{i=1}^{d}$的聚合過程,現有方法的預設假設是任一個維度$s_i$都是孤立元素,並且彼此相互獨立。
圖1 跨維度語義依賴感知建模的研究動機。
注:(a)對於在$d$維共享表示空間中對映的視覺區域和文字單詞特徵,可以表示為維度語義對應向量,現有的正規化通常採用獨立聚合方法,將所有維度對應獨立聚合構成單詞-區域的語義相似性。然而,如本章針對先進模型NAAF的調查實驗所示,在表示空間中的維度並不是相互獨立的,其中有部分維度具有顯著傾向性,即統計共現機率,聯合表示特定語義,例如圖(b)為傾向表示語義‘dog’的維度,以及圖(c)為傾向表示語義‘man’的維度。
然而,共享表示空間中的區域性維度\textbf{{並非相互獨立}}。為了驗證這一觀點,本章使用先進方法NAAF在Flickr30K測試資料集上進行了統計實驗,以調查區域性維度之間潛在的語義依賴性,即計算維度傾向於表達某種語義的共現機率。具體而言,對於具有相同語義的單詞-區域對,其語義相似性反映在所有跨模態維度對應$s_i$的總和上,$s_i$越大,第$i$維度對該語義的貢獻程度就越大。換句話說,共享空間中的第$i$維度更傾向於表示這一語義概念。例如,選取Flickr30K測試集上所有‘dog’語義的單詞-區域對,本章首先獲得所有跨模態語義對應向量,並收集每個向量中維度值最大的前$k$個${s_i}$的維度索引集合,即最顯著反映‘dog’語義的$k$個維度($k$被設為50)。然後,本章計算維度索引的共現機率,如圖1(b)所示,我們可以發現某些維度明顯傾向於共同表示‘dog’的語義概念,例如索引為${838, 250, 46}$的維度,它們的共現機率超過$80\%$。類似地,對於‘man’的語義概念,如圖1(c)所示,我們得到實驗結果表明一些維度共享並傾向於表示這一語義。因此,共享空間中的維度並非完全獨立,其中部分區域性維度間存在潛在關係共同表示特定的語義,本章將其定義為跨維度語義依賴性。
我們認為現有方法通常利用維度獨立聚合的方式,完全忽視了內在的依賴性,這可能會導致語義相似度和表示學習方面的侷限性。首先,如圖2(a)所示,在前向過程中,將維度對應聚合以構成語義相似度時,現有聚合方法中所有維度都是獨立求和的,其中具有聯合依賴性的維度(用相同顏色標記)不能被明確利用和相互增強,導致次優的相似度。其次,在最佳化資訊的後向傳播過程中,具有依賴性的維度不能共同最佳化,而是孤立地學習,這可能會損害表示學習。
圖2 現有的維度語義依賴不感知聚合和所提維度語義依賴感知聚合的對比。
為了解決上述問題,本文提出一種新穎的跨維度語義依賴感知方法,其使所提方法能夠明確挖掘和建模維度之間的語義依賴關係,以充分利用這一固有資訊。具體而言,本章首先提出將現有的維度獨立聚合泛化為一個可學習的框架。在這個框架內,學習到的用於聚合區域性維度作為聯合表示潛在語義的權重,指示了共享空間中維度之間的依賴程度。此外,本章發現更應該關注具有顯著依賴關係的維度,因此提出了一種簡單而有效的自適應稀疏依賴機率學習。這種設計引入了每個維度用於聯合表示語義的條件機率,並將其作為稀疏正則化器自適應地縮放,自主使模型適應以學習更精確的維度語義依賴。透過這種方式,潛在的維度語義依賴資訊可以被明確地揭示和利用,如圖2(b)所示。
二、方法與實現 Methods
2.1 問題分析
細粒度影像文字語義關聯的正規化是首先將顯著視覺區域和文字單詞對映到共享表示空間,然後檢查所有單詞區域對的語義相似性以推斷影像文字相關性。具體來說,對於對映的任意區域特徵$\boldsymbol{v} = \{v_i\}_{i=1}^{d}$和單詞特徵$\boldsymbol{u} =\{u_i\}_{i=1}^{d}$,在$d$維共享表示空間中,它們可以表示為跨模態語義對應向量$\boldsymbol{s} = \{s_i\}_{i=1}^{d}$,其中$s_i$表示由$v_i$和$u_i$計算出的第$i$個跨模態維度對應關係。現有方法通常聚合$\boldsymbol{s}$ 中的所有維度對應關係以反映它們的語義相似性,可以表示為:
$\begin{matrix}Agg(\boldsymbol{s}) = \sum_{i=1}^{d} \ s_i\end{matrix},$
其中$s_i$可以被確定為常用的$s_i = v_i \cdot u_i $(內積) 或$s_i = \frac{v_i}{\|\boldsymbol{v}\|} \cdot \frac{u_i}{\|\boldsymbol{u}\|}$(餘弦距離)等。
並非關注維度對應的計算,本章關注它們在$d$維共享表示空間中的聚合過程。 因此,重新考慮該空間中所有維度對應$ s_i$ 的聚合,上式可以重寫為:
其中${\boldsymbol{I}}$是$d \times d$單位矩陣。 一個重要的屬性是${\boldsymbol{I}}$中的每一行表示聚合中維度的相互關係,是相互正交且獨立的。
然而,事實上,如圖1所示,本章發現維度之間存在依賴關係,可以共同表示潛在語義。正如本文的分析,忽視這種內在的依賴關係資訊可能會導致侷限性,即具有依賴關係的維度既不能在語義相似性聚合中相互增強,也不能在表示學習過程中進行聯合最佳化。這促使我們探索與共享空間中維度依賴性特性相一致的更合理聚合方法。
2.2 方法概覽
為解決上述問題,本章提出跨維度語義依賴感知建模方法(Cross-Dimensional semantic dependency-aware modeling,X-Dim),其顯式學習跨維度之間的語義依賴關係以產生新的相似度聚合方式。本章首先提出關於語義依賴建模的關鍵見解,然後設計一種自適應依賴建模方法。具體而言,所提方法如圖3所示,首先,為輸入語義對應向量引入可學習矩陣,其中每一行挖掘潛在語義的一種維度依賴性。 然後,基於由相應權重表示的依賴程度,設計了稀疏依賴的機率學習。其自適應地學習稀疏正則化器,自主地使模型捕獲更準確的依賴關係。 最後,透過所有細粒度的單詞區域相似性來推斷影像文字相關性。下面將詳細介紹跨維度語義依賴感知關鍵見解以及自適應學習等模組,並總結所提方法的理論分析和創新優勢。
圖3 跨維度語義依賴感知建模方法
2.3 跨維度語義依賴感知關鍵見解
受到部分區域性維度具有相互依賴性這一發現的啟發,本章的目標是設計一種新穎的聚合,探索共享表示空間中維度之間的語義依賴關係。這樣,可以顯式地揭示現有聚合過程中被忽略的跨維度依賴資訊,從而使得具有聯合意義的維度能夠得到增強和利用。
(1)可學習的維度語義依賴感知聚合
與現有的方法無意識地使用對角矩陣來獨立建模聚合過程中維度之間的相互關係不同,本章的關鍵見解是將其泛化為可學習的維度依賴性感知聚合框架:
其中${\boldsymbol{W}} \in \mathbb{R}^{d \times d}$是一個學習權重矩陣,其每一行模擬不同維度之間的一種語義依賴關係。 具體來說,對於權重矩陣的第$i$行,有:
$\begin{matrix}\hat{s}_i =\sum_{j=1}^{d} w_{ij} \cdot s_j, \quad j\in[1, d] \end{matrix},$
其中$\hat{s}_i$ 作為中間變數,表示第$i$個聯合表示的潛在語義,權重$w_{ij}$建模第 $j$個維度的依賴關係$s_j$到共同表示的$\hat{s}_i$。 $\| \cdot\|_{l_2}$表示維度通道的歸一化。透過實驗發現,如表1所示,我們可以看到,僅透過將原始獨立聚合替換為可學習的維度依賴感知聚合,就可以實現顯著的效能提升(跨模態關聯匹配推理詳見後文)。這一發現激發了我們進一步探索更好的維度依賴感知聚合方法。
表1 所提跨維度依賴感知聚合關鍵見解和現有跨維度獨立聚合的效能對比
(2)可學習的Top-k維度語義依賴感知聚合
如圖4中的統計結果(a)和(b)所示,只有部分維度具有顯著的語義依賴性,這是上述公式中進一步實現更準確的互動建模的主要障礙,即維度依賴性聚合了所有維度。 雖然可以學習較大的權重來表明這些維度具有顯著的依賴性,從而在聚合過程中貢獻更多,但其他具有較小權重的維度也會被聚合,這將引入或多或少的干擾。
為了證明上述思考的有效性,對於可學習權重矩陣中的每一行,本章首先提出可學習維度語義依賴感知聚合的一個變體,其利用 top-k策略來建模維度依賴性:
其中$\mathcal{K}$是第$i$行學習權重的 top-k索引子集。
實驗發現,即使僅使用簡單的 top-k維度依賴感知聚合,在選擇合適 k 的前提下,也與最近的先進方法有可比較的效能。
(3)跨維度語義依賴感知自適應學習
對於top-k策略而言,仍然存在一些限制。 首先,手動調整超引數k需要大量重複實驗,不僅費時費力,而且可能只針對特定任務和資料,缺乏適應性。 其次,選擇相同且固定的 k 維度來建模所有潛在語義依賴關係並不是最佳選擇。 由於不同的語義概念具有不同的複雜度,因此需要共同表示的維度也不同。 例如,在圖4(a)和圖4(b)中,對於“man”和“dog”的語義,具有依賴關係的維度數量明顯不同。
考慮到這些因素,同時結合本文從學習維度依賴感知聚合中獲得的見解,我們的目標是設計一種更通用的方法,根據資料自主適應學習最佳狀態。 為此,本章提出了一種新穎的稀疏依賴自適應機率學習,它引入了每個維度的條件機率來表示聯合語義,並自適應地將學習權重縮放為稀疏,以僅選擇具有顯著依賴性的維度。\textbf{稀疏依賴機率建模學習}。本章首先回顧公式\ref{5-E3}中的維度依賴感知聚合為:
$\hat{s}_i = w_{i1}\cdot s_1 + \ldots + w_{ij}\cdot s_j + \ldots + w_{id}\cdot s_d, \quad j\in[1, d], $
其含義為:共享表示空間中所有維度針對第$i$個聯合表示潛在語義的依賴關係進行建模。 為了明確量化,所提方法引入每個維度的條件機率為:
$p(\hat{s}_i|s_j) = Sigmoid(w_{ij}), \quad j\in[1, d],$
其中$p(\hat{s}_i|s_j) \in [0, 1]$反映了第$j$維對聯合表示$\hat{s}_i$的依賴程度。$p(\hat{s}_i|s_j)$的值越大,共享空間中的該維度就越傾向於參與聯合表示。
我們期望模型能夠根據要聯合表示的潛在語義自主挖掘具有聯合依賴關係的維度,並且挖掘出的維度能夠儘可能簡潔地聚合,以避免其他不具有顯著依賴關係維度的干擾。具體來說,基於學習到的條件機率$\{p(\hat{s}_i|s_j)\}_{j=1}^{d}$表示所有維度對潛在語義的依賴程度$\hat{s}_i$,我們在訓練過程中觀察到它們的直方圖統計機率密度近似正態分佈,如圖4(c)。因此,根據條件機率的統計特徵$(\mu_{i}, \sigma_{i})$,所提方法首先使模型自主學習一個軟閾值來區分維度是否具有聯合依賴的含義:
$t_{i} = \mu_{i} + \alpha_{i} \cdot \sigma_{i},$
其中$\mu_{i}$和$\sigma_{i}$分別為取樣機率值$\{p(\hat{s}_i|s_j)\}_{j=1}^{d}$的平均值和標準差,$\alpha_{i}$ 是一個可學習的調整引數。
在這種設計中,模型可以根據要表示的潛在語義的複雜性自適應地調整軟閾值$t_i$,從而能夠控制被選擇為具有顯著語義依賴性的維度的比例。 如圖\ref{mm_framework},基於$t_i$,比例可以計算為:
$P_{i} = \int_{t_i}^{+\infty} f_{i}(p) \ d{p},$
其中$f_{i}(p) \sim \mathcal{N} (\mu_i, \sigma_{i}^{2})$是相對於維度依賴程度的擬合正態機率分佈。
然後,經過縮放操作,可以得到修正後的稀疏機率:
$\hat{p}(\hat{s}_i|s_j) = \delta(e^{\kappa(p(\hat{s}_i|s_j)-t_i)}),$
其中$\kappa$是可學習的縮放引數,$\delta(\cdot)$表示$tanh$啟用函式。
也就是說,在條件機率$p(\hat{s}_i|s_j)$的指導下,那些依賴度大於$t_i$的維度被保留,而其他小於$t_i$的維度被壓縮到接近於零而被捨棄。 因此,可以將可學習維度語義依賴感知公式\ref{5-E3}重寫為:
$\begin{matrix}\hat{s}_i =\sum_{i=1}^{d} \ \ \hat{p}(\hat{s}_i|s_j) \cdot w_{ij} \cdot s_j, \quad j\in[1, d] \text{。} \end{matrix}$
最後,自適應維度語義依賴感知聚合可以表述為:
$Agg(\boldsymbol{s}) =\sum_{i=1}^{d} \left \| (\hat{\boldsymbol{P}}\odot {\boldsymbol{W}}) \times {\boldsymbol{s}}^{T} \right\|_{l_2},$
其中$\hat{\boldsymbol{P}} = \{\hat{p}(\hat{s}_i|s_j)\}$, $i,j\!\!\in\!\![1, d]$可以被視為自適應正則化器,以實現更準確的維度依賴建模。
(4)細粒度圖文相關性計算
本章透過將提出的跨維度語義依賴感知建模方法X-Dim 整合到現有交叉注意來構建跨模態細粒度影像文字語義關聯。 具體來說,對於給定的影像文字對$(\boldsymbol{U}, \boldsymbol{V})$,由$n$個文字單詞 $\{\boldsymbol{u_i}\}_{i=1}^{n}$和$m$顯著影像區域$\{ \boldsymbol{v_j} \}_{j=1}^{m}$。所提方法首先獲得所有單詞區域對$(\boldsymbol{u_i}, \boldsymbol{v_j})$, $i \in [1, n]$, $j\in [1, m]$的語義相似度為:
$r_{ij}=Agg(\boldsymbol{s}_{ij}), \quad \text{s.t.} \ \ \boldsymbol{s}_{ij}= \boldsymbol{u_i} \odot \boldsymbol{v_j}.$
對於每個單詞查詢$\boldsymbol{u_i}$,我們找到其相關區域為:
$\boldsymbol{\tilde{v}_j }=\sum_{j=1}^{m}\beta_{ij}v_{j}, \quad \text{s.t.} \ \ \beta_{ij} = \frac{exp(\lambda \cdot \delta({r}_{ij}))}{\sum_{j=1}^{m}exp(\lambda \cdot \delta({r}_{ij}))},$
其中$\beta_{ij}$表示注意力權重,$\lambda$是可學習的縮放引數。類似地,第$i$個單詞和影像之間的相關性得分可以計算為:
$\tilde{r}_{i} = Agg(\boldsymbol{\tilde{s}}_{i}),$
其中 $\boldsymbol{\tilde{s}}_{i} = \boldsymbol{ u_i } \odot \boldsymbol{\tilde{v}_i }$。
最後,整體影像文字相關性推理為:
$\begin{matrix}S(\boldsymbol{U}, \boldsymbol{V}) = \frac{1}{n}\sum_{i=1}^{n} \tilde{r}_{q} \text{。} \end{matrix}$
(5)理論分析
本章所提方法的虛擬碼如演算法如下所示,其中‘僅訓練’表示只在訓練過程中執行,推理階段可以忽略。
從理論上分析,本章節所提出的X-Dim在跨維度語義依賴學習中隱式引入了核函式,增強了跨模態特徵的區分性。 實驗也驗證了這一觀點的有效性。
先驗知識:對於自適應維度語義依賴感知聚合,即,$\boldsymbol{s} \in \mathbb{R}^{1 \times d}$是輸入的跨模態對應向量,令$\hat{\boldsymbol{w}}_i \in \mathbb{R}^{1 \times d}$表示矩陣$\hat{\boldsymbol{P}}\odot {\boldsymbol{W}}$的第$i$行,$\hat{s}_i = \hat{\boldsymbol{w}}_i \boldsymbol{s}^{T}$作為其聯合表示的中間變數。
我們首先透過所有中間變數$\{\hat{s}_i \}_{i=1}^{d}$將公式中的自適應維度語義依賴感知聚合重寫為:
$Agg(\boldsymbol{s})=\sum_{i=1}^{d}\frac{\hat{s}_i }{\sqrt{\sum_{i=1}^{d}(\hat{s}_i)^{2} + \epsilon}}=\frac{\sum_{i=1}^{d}\hat{\boldsymbol{w}}_i \boldsymbol{s}^{T} }{\sqrt{ \boldsymbol{s}(\sum_{i=1}^{d}\hat{\boldsymbol{w}}_i^T\hat{\boldsymbol{w}}_i)\boldsymbol{s}^{T} + \epsilon}},$
其中$\sum_{i=1}^{d}\hat{\boldsymbol{w}}_i^T\hat{\boldsymbol{w}}_i \succeq 0$是半正定矩陣,可以表示為$U\Lambda U^{T}$透過特徵值分解。 $\epsilon$ 是一個接近於零的常數,以避免在實現中的數值問題。 因此,透過替換操作,我們有:
$Agg(\boldsymbol{s}) =\frac{\sum_{i=1}^{d}\hat{\boldsymbol{w}}_i \boldsymbol{s}^{T} }{ \sqrt{ {\phi (\boldsymbol{s}) \phi (\boldsymbol{s})^{T}}+ \epsilon}},$
其中$\phi (\boldsymbol{s}) = {\boldsymbol{s}U \sqrt{\Lambda} }$,分母項$\sqrt{ {\phi (\boldsymbol{s}) \phi (\boldsymbol{s})^{T}}+ \epsilon}$是所提跨維語義依賴建模的隱式引入的變體,其形式類似於核函式。根據核函式理論,可以表示為$\phi (\boldsymbol{s}) \phi (\boldsymbol{s})^{T}$上在$\epsilon$處的無限階多項式處的泰勒展開式,相當於將原始共享空間中從有限$d$維$\boldsymbol{s}$變換到無限維空間。 因此,透過本章提出的 X-Dim,跨模態維度對應向量$\boldsymbol{s}$具有更容易區分的優點。
並且,值得注意的是,學習到的$\hat{\boldsymbol{P}}\odot {\boldsymbol{W}}$在推理階段不需要額外的重新計算,可以直接使用。因為隨著訓練的結束,共享表示空間中的跨維度語義依賴關係被確定。所提方法中計算複雜度最大的操作為自適應維度語義依賴感知聚合中$d \times d$矩陣與$d \times 1$矩陣的乘法操作,因此所提X-Dim的計算複雜度為$\mathcal{O}(d^2)$。
三、實驗結果 Experiments
四、論文
If you found this useful, please cite the following paper:
Zhang K, Zhang L, Hu B, et al. Unlocking the Power of Cross-Dimensional Semantic Dependency for Image-Text Matching[C]//Proceedings of the 31st ACM International Conference on Multimedia. 2023: 4828-4837.
@inproceedings{zhang2023unlocking, title={Unlocking the Power of Cross-Dimensional Semantic Dependency for Image-Text Matching}, author={Zhang, Kun and Zhang, Lei and Hu, Bo and Zhu, Mengxiao and Mao, Zhendong}, booktitle={Proceedings of the 31st ACM International Conference on Multimedia}, pages={4828--4837}, year={2023} }