

論文題目:Test-time Adaptation for Cross-modal Retrieval with Query Shift
論文地址:https://openreview.net/forum?id=BmG88rONaU
專案地址:https://hbinli.github.io/TCR/

從模態內分佈和模態間差異兩個層面,揭示了查詢偏移導致檢索效能下降的根本原因。
將 TTA 正規化擴充套件至跨模態檢索領域,透過調整模態內分佈、模態間差異以及緩解檢索過程中的高噪聲現象,實現查詢偏移下的魯棒跨模態檢索。
為跨模態檢索 TTA 建立了統一的基準,涵蓋 6 個廣泛應用的資料集和 130 種風格各異、程度不同的模態損壞場景,支援包括 BLIP [2]、CLIP [3] 等主流預訓練模型。



















僅查詢偏移:只有查詢模態的分佈與源域資料不同。依據 [5],在 COCO [6] 和 Flickr [7] 資料集上分別引入了 16 種影像損壞和 15 種文字損壞(按照不同嚴重程度共計 130 種損壞)。為了保證僅查詢偏移,先讓模型在對應資料集上進行微調,隨後將微調後的模型應用於僅有查詢偏移的推理資料集中。
查詢 - 候選偏移:查詢模態和候選模態的分佈都與源域資料不同。為了保證查詢 - 候選偏移,本文直接將預訓練模型應用於各領域的推理資料中,包括電商領域的 Fashion-Gen [8]、ReID 領域的 CUHK-PEDES [9] 和 ICFG-PEDES [10]、自然影像領域的 Nocaps [11] 等。


