AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文是北京大學彭宇新教授團隊在多輪互動式商品檢索的最新研究成果,已被 ICLR 2025 接收並開源。
影像檢索是計算機視覺的經典任務,近年來在電商等場景中廣泛應用。然而,單一影像難以滿足使用者需求,使用者常需要修改影像以適配特定場景。為此,組合影像檢索(CIR)應運而生,旨在透過結合參考影像和修改文字來定位目標影像。隨著多輪互動需求的增加,多輪組合影像檢索(MTCIR)逐漸成為研究熱點,能夠利用使用者迭代反饋不斷最佳化檢索結果。然而,現有MTCIR方法通常透過串聯單輪CIR資料集構建多輪資料集,存在兩點不足:(1)歷史上下文缺失:修改文字缺乏對歷史影像的關聯,導致檢索偏離實際場景;(2)資料規模受限:單輪資料集規模有限,串聯方式進一步壓縮了多輪資料集的規模,難以滿足研究和應用需求。
為解決上述問題,本文構建了新的多輪組合影像檢索資料集和評測基準FashionMT。其特點包括:(1)回溯性:每輪修改文字可能涉及歷史參考影像資訊(如保留特定屬性),要求演算法回溯利用多輪歷史資訊;(2)多樣化:FashionMT包含的電商影像數量和類別分別是MT FashionIQ的14倍和30倍,且互動輪次數量接近其27倍,提供了豐富的多模態檢索場景。
本文進一步提出了多輪聚合-迭代模型MAI,重點應對MTCIR中的兩大挑戰:(1)多模態語義聚合,(2)多輪資訊最佳化。具體而言,MAI引入了一種新的兩階段語義聚合(TSA)正規化,並結合迴圈組合損失(CCL)計算。TSA透過引入描述文字作為過渡,逐步將影像與其描述文字聚合,再與修改文字聚合。CCL的迴圈結構進一步增強了語義一致性和模態對齊。此外,本文設計了一種無引數的多輪迭代最佳化(MIO)機制,動態選擇具有高語義多樣性的代表性標記,有效壓縮了歷史資料表徵的儲存空間。實驗結果表明,本方法在所提出的新基準FashionMT的召回指標上平均提升了8%,優於現有方法。
論文標題:MAI: A Multi-turn Aggregation-Iteration Model for Composed Image Retrieval 論文連結:https://openreview.net/pdf?id=gXyWbl71n1 開原始碼:https://github.com/PKU-ICST-MIPL/MAI_ICLR2025 實驗室網址:https://www.wict.pku.edu.cn/mipl
背景與動機
多輪組合影像檢索(MTCIR)作為電商場景的關鍵技術,旨在透過持續對話理解使用者動態調整的需求。現有方法採用"多輪串聯單輪"正規化時,模型陷入僅依賴當前輪次影像的路徑依賴,導致歷史語義鏈路斷裂——當使用者修改需求涉及歷史屬性時(如"保留前兩輪的袖口設計"),檢索系統因無法回溯上下文而失效。這一現象暴露兩大關鍵不足:首先,現有資料集構建方式割裂了跨輪次的語義關聯,使模型陷入區域性最優陷阱;其次,傳統單輪最佳化正規化難以適應多輪場景的語義累積特性,在長程資訊傳遞與動態記憶壓縮方面存在設計侷限。
針對上述不足,本文提出了系統性解決方案:(1) 跨輪次語義建模框架:透過顯式標註多輪修改需求與歷史影像的語義關聯,構建首個具備歷史回溯特性的資料集和評測基準FashionMT;(2) 兩階段跨模態語義聚合:設計基於TSA模組與CCL損失的漸進式對齊架構,透過影像-文字-指令的層級互動解決模態鴻溝問題;(3) 動態記憶壓縮機制:設計MIO模組,利用基於聚類演算法的token選擇策略實現長程依賴建模中的資訊最佳化,在保持檢索精度的同時減少歷史資訊冗餘儲存。本文方法實現了多輪檢索中語義連續性與計算效率的協同最佳化。
圖1. 多輪組合影像檢索樣例展示
資料集和評測基準
本文的資料主要來源於兩個渠道:1. 從現有的單輪組合影像檢索資料集收集影像及相關文字;2. 從多個電商平臺爬取影像及相關文字。在資料預處理過程中,本文對爬取的影像進行了清洗,去除損壞、模糊以及非商品類影像。
圖2. 資料集和評測基準FashionMT資料分佈圖
受現有修改文字手工標註過程的啟發,本文提出了一個自動化的資料集構建框架-修改生成框架(MGF),旨在透過捕捉參考影像和目標影像對之間的差異,自動構建資料集。該框架包括以下步驟:
1. 影像選擇:從某一產品子類中選擇N+1張影像用於N輪交易;2. 標題生成:利用影像描述模型為這些影像生成標題;3. 基礎修改生成:採用大型語言模型(LLM)描述相鄰輪次影像標題之間的差異;4. 回溯性修改生成:確定需要回溯分析的特定輪次,並根據最新影像與歷史影像之間的屬性交集生成相應的修改文字。
為了更好地適應現實場景中的回溯性需求,本文設定了兩種回溯性修改文字生成情境:回滾和組合。在回滾設定中,透過回滾的方式在指定的參考影像與目標影像之間生成修改文字。該情境下的示例為:“Compared to the most recent turn, I still prefer the item from the second turn. Building on that, I like...”。在組合設定中,使用者結合多個歷史輪次中的影像屬性來構建修改請求。該情境下的示例為:“I like ... from the first turn, and ... from the second turn” 。在此設定中,修改文字由兩部分組成:第一部分是描述需要保留的公共屬性,並以提示 “Keep the {Attr} in the {ID} turn” 開頭,其中 {Attr}表示如顏色、logo、圖案等屬性,{ID}表示與目標影像共享屬性的輪次;第二部分描述附加的修改需求。
FashionMT在規模和豐富性上顯著超越現有資料集,影像數量是MT FashionIQ的14倍,類別數量是MT Shoes的近10倍。透過利用修改生成框架,FashionMT實現了高效的交易構建,資料集規模為MT FashionIQ的27倍。此外,FashionMT的修改文字更加詳盡,平均長度是MT FashionIQ的兩倍。作為專為MTCIR任務設計的資料集,FashionMT為多模態影像檢索任務提供了更加全面和真實的資料支援。
技術方案
為應對MTCIR中的兩大挑戰——多模態語義聚合和多輪資訊最佳化,本文提出了多輪聚合-迭代模型(MAI)。如圖3所示,MAI包含4個主要模組:
1.多模態語義聚合(BSA):透過聚合影像描述和修改文字的語義資訊,增強影像與文字之間的語義對齊。
2.多輪迭代最佳化(MIO):透過最佳化多輪互動中的關鍵語義 tokens,減少冗餘資訊,提升檢索效能。
3.修改語義聚合(MSA):將修改文字與參考影像的語義資訊進行融合,以強化修改內容對影像的語義影響。
4.迴圈組合損失(CCL):透過多輪訓練中的迴圈最佳化機制,強化目標影像與修改文字之間的匹配度。
圖3. 多輪聚合-迭代模型方法框架圖
模組1:多模態語義聚合(BSA)
在第 n 輪,首先對修改文字進行語法分析,判斷是否存在回滾操作,判斷標準是基於預設模板生成的修改文字。如果修改文字匹配回滾模板,則將參考影像指定為回滾輪次中的影像;如果不匹配,則預設選擇第 n 輪的參考影像。透過凍結視覺編碼器提取影像的視覺補丁嵌入。BSA 框架透過可學習的 tokens,首先學習影像及其描述之間的模態語義,然後與修改文字進行互動,從而在與修改文字互動時增強模態之間的相關性。經過 BSA 後,tokens 聚合了參考影像和影像描述的多模態語義,記為
。
模組2:多輪迭代最佳化(MIO)
儘管tokens 比視覺嵌入更節省空間,但為每一輪儲存這些 tokens 仍會消耗大量空間。電商影像通常具有不同的屬性,如顏色、風格、尺寸等,而多輪檢索往往涉及同一子類別的商品,導致多輪影像之間存在相似屬性。因此,提出了一種無引數機制,用於最佳化並保留在多輪互動中關鍵的語義屬性。本方法將上一輪的學習到的與當前輪的
拼接得到
,最佳化過程包括以下幾個步驟:
(1)聚類:基於 k-最近鄰的密度峰值聚類演算法(DPC-kNN),對進行聚類,聚類操作可表示如下
其中表示第 i 個聚類,
為第 i 個聚類的質心。
(2)密度估計:聚類後,根據簇內 tokens 與其他 tokens 的距離,估計每個簇的密度,低密度的 tokens 會被過濾掉。密度估計公式為:
其中 Nei(v) 表示 v 的鄰近 tokens。
(3)修剪:透過計算每個 token 的密度和與鄰近點的距離,過濾得分較低的 tokens,保留得分高即語義顯著的 tokens。最終表示為 ,有效保留了攜帶判別性語義的 tokens,減少了計算資源的消耗。
模組3:修改語義聚合(MSA)
在 MSA 階段,本文將包含參考語義的tokens 與修改文字嵌入 m_n 進行互動。透過凍結文字編碼器提取修改文字的嵌入,將其與
拼接後輸入自注意力層。隨後,經過線性變換和歸一化處理,最終得到參考端的嵌入
,該嵌入同時包含來自參考影像、影像描述和修改文字的多模態語義。由於涉及多個歷史影像,BSA 將透過拼接前幾輪的tokens 與對應的影像描述,進行多模態嵌入的聚合。隨後,這些嵌入將與修改文字在 MSA 中進行語義聚合。
模組4:迴圈組合損失(CCL)
在多輪組合影像檢索任務中,修改文字在檢索過程中的引導作用至關重要。為此,本文提出了迴圈組合損失(CCL),旨在透過對多模態資訊進行精確對齊,強化影像與文字之間的語義關聯,特別是文字修改的語義。具體而言,本文設計的迴圈組合損失目標是透過多輪迭代中影像和文字的語義對齊,確保檢索結果更加準確。該損失函式結合了4種嵌入的約束,包括參考影像的語義嵌入、目標影像的語義嵌入、修改文字的語義嵌入以及目標影像的文字特徵。透過多輪訓練,強化每輪之間語義的傳遞和最佳化,使得最終的目標影像能更好地與修改文字匹配。迴圈組合損失(CCL) 由以下4項損失組成:
(1)參考影像語義與目標影像語義之間的相似度損失
(2)目標影像語義與修改文字語義之間的相似度損失
(3)修改文字語義與目標影像文字特徵之間的相似度損失
(4)目標影像文字特徵與參考影像語義之間的相似度損失
每一項相似度損失透過批次分類損失計算,使用內積方法(餘弦相似度)衡量嵌入之間的相似性。最終,迴圈組合損失為各輪損失的累積,確保在多輪互動中,所有語義資訊得到充分融合和最佳化,其公式展示如下:
實驗結果
表1. 在FashionMT資料集上的實驗結果
表1的實驗結果表明,本文所提出的MAI方法顯著優於現有方法,在檢索的召回率平均指標上相比新加坡A*STAR研究院的SPRC方法提高了8.63%,相比北京大學釋出的多模態混合輸入大模型MMICL提高了11.77%。
圖4. 在FashionMT資料集上的檢索結果視覺化
圖4表明, MAI透過利用TSA和CCL高效聚合影像-描述文字的語義,能夠有效處理細粒度需求,使其對“縐布”和“復古設計”等領域特定術語具有識別能力。此外,MAI透過使用MIO元件保留多輪歷史關鍵資訊,能夠精確解釋諸如“肩帶設計”等模糊表達,從而滿足回溯性需求。