論文筆記

yiranxie233發表於2024-03-10

VGSG: Vision-Guided Semantic-Group Network for Text-based Person Search

1. 網路架構

1. CLIP baseline

基於文字的行人重識別最大的問題是不能夠對齊像行人重識別裡面的細粒度特徵,,如:文字的細粒度描述(如:對於衣著等)以及對應影像的細粒度描述。因此提出了基於CLIP的baseline, CLIP可以對齊像行人重識別裡面的細粒度特徵。

2. SGTL

隨後提出了Semantic-Group Textual Learning (SGTL) module, 透過視覺模式對輸出的語言表達的語義分佈進行分組得到channel-grouped textual features, 然後將features送入一個transformer模組探索單詞和整個上下文之間的語義相關性。
總之, 這個模組使得文字特徵可以使得相似的語義模式聚集在一起。

3. VGKT

由於在不同水平條對應人身體的不同部位, 因此對齊語義組的文字特徵和相對應的視覺特徵非常困難。設計了一個Vision-Guided Knowledge Transfer (VGKT) module, 模組主要包括兩個部分:a vision-guided attention and a relational knowledge transfer.前一個主要是透過發掘視覺概念提取視覺引導的文字特徵從而達到語義特徵的對齊。但是, 獲取文字特徵匹配的視覺特徵需要知道對應的影像的id標籤, 無法在推理的時刻得到。因此需要知識蒸餾(knowledge distillation)的知識遷移,將這個訓練的特徵對齊遷移到語義組的文字特徵中實現語義組的文字特徵和視覺特徵的對齊。

總結

CLIP baseline + VGSG (SGTL + VGKT), 然後在對應的benchmark 上面達到了最佳(CUHK-PEDES and ICFG-PEDES).

方法

1. CLIP的回顧

由於CLIP是做影像分類任務上面的, 計算的是文字和圖片的全域性相似性, 因此忽略了像基於文字的行人重識別的區域性特徵的細節。

2. CLIP baseline

  • 視覺提取採用Resnet50進行提取, 提取出來的特徵為\(V_f\),將倒數第二層的平均池化層換成自注意力池化層得到全域性影像特徵\(V_g\)
  • 文字特徵採用Transformer進行提取, 提取出來的特徵為\(T_f\), 將\(T_f\)對映到和\(V_g\)維數相同的位置時得到\(T_g\)
    計算他們的餘弦相似度\(S_g\), 用ID loss(cross-entropy loss)用資料集中的標籤來度量,和對比損失(這裡構造了一個三元組集合, 視覺全域性特徵和文字全域性特徵的正確描述對和文字全域性特徵的錯誤描述),分別得到他們的相似度:

    從而保證影像和文字的正樣本對之間的距離很近。

3. Semantic-Group Textual Learning Module

  • 目的:提取可以區分的區域性特徵
  • 問題: 將得到的視覺特徵\(V_f\)切成互不重疊的K個, 然後採用self-attention pooling layer得到區域性池化圖片特徵。但是, 自然語言的細粒度切割不能像影像一樣進行水平的切割。
  • 方法: 採用Channel Projection block (由線性層和batch normalization層構成)將通道的維度由原來的\(C^T\)擴充套件到\(KC^T\)。然後將其均勻的切割成K份。
    檢測重要的短語, 設定了一系列可學習的word queries, 同時加入全域性的文字結束符。\(q^k = w^k + T^k_{f[EOS]}\),
    \(q^{k′} = MHA(LN(q^k), LN(q^k), LN(q^k)) + q^k\),
    \(T_l^{k′} = MHA(LN(q^{k′}), T_f^k, T_f^k) + q^{k′}\),
    \(T_l^k = MLP(LN(T_l^{k′})) + T_l^{k′}\),
    最終得到了語言組的區域性文字特徵 霧)

4. Vision-guided Knowledge Transfer Module

  • 目的:將3中得到的語義組文字特徵和對應的視覺特徵進行對齊。
  • 問題: 由於上面的語義組資訊是由文字特徵自己進行學習得到的, 因此仍然需要額外的語義標註才能和對應的視覺概念對齊。
  • 方法:
    1 提出了Vision-guided Attention:
    首先透過一個可學習的全連線層引數W1將影像特徵與文字特徵進行對映,得到每個畫素與每個詞之間的相關性分數\(α_{i,j}\)。如果第i個畫素與第j個詞有明顯的相關性,那麼它會輸出一個高的注意力分數\(α_{i,j}\);否則,會輸出一個低的注意力分數。然後,生成一組注意力權重\(α_{i,j}\),基於這些權重提取影像中1個畫素對於整個文字的特徵。然後計算區域性特徵和視覺引導的特徵之間的相似度。
  1. Relational Knowledge Transfer:
    成對的視覺-文字只有在訓練的階段才能得到, 在推理的階段並沒有成對的資料因此需要將之前學習的視覺-語言互動進行資訊遷移。
    利用之前的視覺和文字模態的作為輔助監督訊號。 這裡將視覺和文字之間計算相似度, 根據這個關係構建了一個關係矩陣, 分別可以得到視覺引導的矩陣和語義組得到的矩陣, 計算他們之間的KL散度, 得到損失函式\(L_{st}\).
    透過計算每個區域性文字特徵的類別機率矩陣,並利用KL散度來轉移視覺引導文字特徵與語義組文字特徵之間的類別機率關係, 得到損失函式\(L_{cpt}\)

總體損失

損失: \(L = L_{ID} + L_{Con} + \lambda_1 L_{st} + \lambda_2 L_{cpt}\)
影像-描述一致性損失\(L_{ID}\):這種損失用於確保全域性視覺特徵(\(V_g\))、全域性文字特徵(\(T_g\))、K個區域性視覺特徵以及K個語義組區域性文字特徵之間的一致性。
對比損失(\(L_{Con}\)):這種損失用於確保全域性影像-文字對(\(S_g\))、語義組區域性影像-文字對(\(S_l\))和視覺引導區域性影像-文字對(\(S^v_l\))之間的對比度。
相似性轉移損失\(L_{st}\):這種損失用於將視覺特徵與視覺引導的文字特徵之間的關係轉移到視覺特徵與語義組文字特徵之間的關係,以適應檢索任務的目標。
類機率轉移損失\(L_{cpt}\):這種損失用於進一步調整預測的類機率,使其從視覺引導的文字特徵轉移到由語義組文字特徵產生的類機率。

在模型訓練過程中,\(L_{st}\)\(L_{cpt}\)不會反向傳播透過視覺引導注意力模組,從而保持視覺引導注意力提取視覺引導文字特徵的能力,不受其他損失函式的影響。

在推理階段,總體相似度值是全域性影像-文字對(\(S_g\))和語義組區域性影像-文字對(\(S_l\))的總和, 也不存在\(L_{st}\)\(L_{cpt}\), \(L = L_{ID} + L_{Con}\)

相關文章