(ICONIP2021)On the Unreasonable Effectiveness of Centroids in Image

閣樓式的幻想發表於2022-04-03


On the Unreasonable Effectiveness of Centroids in Image

影像中質心的不合理有效性

論文地址:https://openaccess.thecvf.com/content/ICCV2021/html/Wong_Persistent_Homology_Based_Graph_Convolution_Network_for_Fine-Grained_3D_Shape_ICCV_2021_paper.html
程式碼:https://github.com/mikwieczorek/centroids-reid

摘要

  影像檢索任務包括從一組相簿(資料庫)影像中找到與查詢影像相似的影像。這樣的系統用於各種應用,例如行人重新識別(ReID)或視覺產品搜尋。儘管檢索模型正在積極發展,但它仍然是一項具有挑戰性的任務,主要是由於視角、光照、背景雜波或遮擋的變化引起的類內方差大,而類間方差可能相對較低。當前的大部分研究都集中在建立更強大的特徵和修改目標函式上,通常基於TripletLoss。一些作品嚐試使用類的質心/代理表示來緩解與TripletLoss一起使用的計算速度和硬樣本挖掘問題。然而,這些方法僅用於訓練並在檢索階段被丟棄。在本文中,我們建議在訓練和檢索期間都使用平均質心表示。這種聚合表示對異常值更穩健,並確保更穩定的特徵。由於每個類都由單個嵌入類質心表示-檢索時間和儲存需求都顯著減少。由於減少了候選目標向量的數量,聚合多個嵌入導致搜尋空間顯著減少,這使得該方法特別適用於生產部署。在兩個ReID和時尚檢索資料集上進行的綜合實驗證明了我們的方法的有效性,它優於當前最先進的方法。我們建議將質心訓練和檢索作為時尚檢索和ReID應用程式的可行方法。

1、引言

  例項檢索是將查詢影像中的物件與畫廊集中的影像表示的物件進行匹配的問題。檢索系統的應用涵蓋行人/車輛重新識別、人臉識別、視訊監控、顯式內容過濾、醫學診斷和時尚檢索。

(ICONIP2021)On the Unreasonable Effectiveness of Centroids in Image
圖1:基於質心和基於例項的檢索的比較。虛線表示查詢影像(彩色框)與每個類別的最近鄰之間的距離。a)質心計算為屬於每個類別的所有樣本(陰影影像)的平均值。查詢被分配了最近質心的類,這是正確的“黃金”類。b)計算所有樣本與查詢之間的距離。它被錯誤地分配了“藍色”類,因為藍色類樣本是它最近的鄰居。

  大多數現有的例項檢索解決方案都使用深度度量學習方法[1,3,6,7,13,16],其中訓練深度學習模型將影像轉換為向量表示,以便來自同一類的樣本接近彼此。在檢索階段,查詢嵌入對所有相簿嵌入進行評分,並返回最相似的嵌入。直到最近,很多工作都使用分類損失來訓練檢索模型[8,14,15,17,20]。目前大多數作品都使用comparative/ranking losses,而TripletLoss是最廣泛使用的方法之一。然而,最先進的解決方案通常將比較損失與輔助損失(如分類或中心損失)結合起來[5、7、12、13、16]。

  儘管TripletLoss優於大多數其他方法,但它存在許多工作[2,16,18,21]表明的問題:1)硬負取樣是建立訓練批次的主要方法,該批次中僅包含資訊量大的三元組,但它可能會導致區域性最小值不佳並阻止模型達到最佳效能[2,18];2)硬負取樣計算量大,因為需要計算批次中所有樣本之間的距離[2,16];3)TripletLoss由於硬負取樣和點對點損失的性質而容易出現異常值和噪聲標籤[16,18]
為了緩解TripletLoss的點對點性質引起的問題,提出了point-to-set/point-to-centroid公式,其中測量樣本和代表類的原型/質心之間的距離。質心是每個專案的多個表示的聚合。質心方法導致每個專案嵌入一個,從而降低記憶體和儲存需求。有許多方法可以研究原型/質心公式,它們的主要優點如下:1)更低的計算成本[2,16],甚至是線性複雜度而不是三次[2];2)對異常值和噪聲標籤具有更高的魯棒性[16,18];3)更快的訓練[11];4)與標準點對點三元組損失相當或更好的效能[5,11,16]。

  我們建議更進一步,使用基於質心的方法進行訓練和推理,並將其應用於時尚檢索和人員重新識別。我們通過使用我們稱為CentroidTripletLoss的新損失函式來增強當前最先進的時尚檢索模型[13]來實現我們的基於質心的模型。基線模型有許多同時優化的損失,它們解釋了檢索問題的各個方面。因此,可以很容易地新增一個額外的基於質心的損失,以修正一個反覆出現的問題:對物件畫廊的可變性缺乏魯棒性。質心是通過對影像表示的簡單平均來計算的。我們表明,這種簡單的模型修正可以降低請求的延遲並降低基礎設施成本,同時在各種評估協議、資料集和域中產生新的最先進的結果。我們還討論了為什麼與標準的基於影像的方法相比,這種檢索問題的表述是可行和有利的。

這項工作的貢獻有四個:
•我們引入了CentroidTripletLoss-一種用於例項檢索任務的新損失函式•我們建議在檢索過程中使用類質心作為表示。
•我們通過徹底的實驗表明,基於質心的方法在不同的資料集和領域(時尚檢索和人員重新識別)中建立了新的最先進的結果。
•我們表明,與標準例項級方法相比,基於質心的檢索任務方法可顯著加快推理速度並節省儲存空間。

2、提出的方法

  影像檢索任務旨在找到與查詢影像最相似的物件。在時尚檢索和人物重新識別中,它通常是在例項級別的基礎上完成的:每個查詢影像都針對相簿中的所有影像進行評分。如果一個物件分配了多個影像(例如,在可變照明條件下來自多個視點的照片),則每個影像都被單獨處理。因此,同一物件可能會在排名結果中出現多次。這樣的協議可能是有益的,因為它允許匹配在類似情況下以類似角度拍攝的影像,描繪物件的相同部分或特寫細節。另一方面,優勢很容易變成劣勢,因為完全不同物件的細節照片可能與查詢影像中的細節相似,從而導致錯誤匹配。

  我們建議使用所有可用樣本的聚合專案表示。這種方法產生了一個魯棒的表示,它不太容易受到單影像錯誤匹配的影響。使用聚合表示,每個專案由單個嵌入表示,從而顯著減少搜尋空間,節省記憶體並顯著減少檢索時間。除了在檢索過程中計算效率更高之外,與非基於質心的方法相比,基於質心的方法還改善了檢索結果。請注意,在基於質心的設定中訓練模型不會將評估協議限制為僅質心評估,而且還改進了例項級評估的典型設定中的結果。

2.1 CentroidTripletloss

  TripletLoss最初適用於錨影像?、正(同一類)示例?和屬於另一個類的負示例?。目標是最小化?-?之間的距離,同時推開?樣本。損失函式公式如下:

(ICONIP2021)On the Unreasonable Effectiveness of Centroids in Image
其中[?]+=???(?,0),?表示在訓練階段學習的嵌入函式,?是邊際引數。

  我們提出了CentroidTripletLoss(CTL)。CTL不是比較錨點影像?與正例和負例的距離,而是測量?和類質心??和??之間的距離,分別代表與錨相同的類或不同的類。因此,CTL被表述為:

(ICONIP2021)On the Unreasonable Effectiveness of Centroids in Image

2.2 聚合表示

  在訓練階段,每個小批量包含?不同的專案類,每個類有?個樣本,導致批量大小為?×?。讓??表示小批量中類別?的一組樣本,使得S?={?1,...,??}其中??表示第i個樣本的嵌入,使得??∈??,?是樣本表示大小。為了進行有效的訓練,來自S?的每個樣本都用作查詢??,其餘?-1個樣本用於構建原型質心???,可以表示為:

(ICONIP2021)On the Unreasonable Effectiveness of Centroids in Image
其中?表示將影像編碼到?維嵌入空間的神經網路。

  在評估期間,查詢影像由查詢集Q提供,每個類的質心?在檢索發生之前預先計算。為了構建這些質心,我們使用相簿集G?中的所有嵌入用於類?。每個類的質心??∈??被計算為屬於給定類的所有嵌入的平均值:

(ICONIP2021)On the Unreasonable Effectiveness of Centroids in Image
  我們將質心計算和CTL應用於[13]中描述的時尚檢索最新模型。該模型將影像嵌入到基線CNN模型(使用ResNet架構的變體)中,並通過具有平均池化和批量歸一化的簡單前饋架構傳遞它們。在前向傳播的各個階段計算三個單獨的損失函式。在嵌入CNN之後,我們新增了用於訓練的質心計算。為了與原始模型保持一致,在下一步(批量歸一化之後)計算推理的質心。生成的架構如圖2所示。請注意,我們的基於質心的訓練和評估方法也可以移植到其他模型,因為可以在其他現有損失函式旁邊計算CTL。
(ICONIP2021)On the Unreasonable Effectiveness of Centroids in Image

3、實驗

3.1 資料集

DeepFashion(時尚檢索)。該資料集由[6]引入,包含超過800,000張影像,分佈在多個與時尚相關的任務中。我們使用的資料是Consumer-to-shop Clothes Retrieval子集,其中包含33,881種獨特的服裝產品和239,557張影像。

Street2Shop(FashionRetrieval):該資料集包含超過400,000張商店照片和20,357張街道照片。資料集中總共有204,795件不同的服裝。它是第一個現代大規模時尚資料集之一,由[4]引入。

Market1501(PersonRe-identification):它於2015年在[19]中引入,包含1501個類別/身份,分散在32,668個邊界框中,由清華大學的6個攝像頭捕獲。751個類用於訓練,750個帶干擾項用於評估。

DukeMTMC-reID(PersonRe-identification):它是DukeMTMC資料集[9]的一個子集。它包含1,404個類/身份,702個用於訓練,702個和408個干擾身份用於評估。

3.2 應用細節

  我們在當前的時尚檢索最先進模型[13]之上實現了基於質心的解決方案,該模型本身基於得分最高的ReID模型[7]。我們在ImageNet上預訓練的各種基於Resnet的主幹上訓練我們的模型,並報告時尚檢索和行人重新識別任務的結果。我們在基於質心和基於例項的設定中評估模型。基於例項的設定意味著評估成對的影像,與[13]的評估設定相同。我們使用上述論文中提出的相同訓練協議(例如隨機擦除增強、標籤平滑),而不引入任何額外的步驟。

特徵提取器:我們測試了兩個CNN:Resnet-50和Resnet50IBN-A,以比較我們在這兩個網路上的結果。像[7,13]一樣,我們使用??????=1作為最後一個卷積層和Resnet-50原生2048維嵌入大小。

損失函式:[7,13]使用由三部分組成的損失函式:(1)在原始嵌入上計算的三重損失,(2)中心損失[12]作為輔助損失,(3)在批量歸一化嵌入上計算的分類損失。為了基於質心訓練我們的模型,我們使用相同的三個損失並新增CTL,它是在查詢向量和類質心之間計算的。中心損失的權重為5?−4,所有其他損失的權重為1。

  我們的時尚檢索引數配置與[13]中的相同。我們使用基礎學習率為1?−4的Adam優化器和多步學習率排程器,在第40和第70輪後將學習率降低10倍。就像在[7,13]中一樣,中心損失由SGD優化器單獨優化,??=0.5。每個模型訓練3次,每次訓練120個epoch。對於人員重新識別,配置與[7]中的配置相同。基礎學習率為3.5?−4,在第40和第70epoch衰減。每個模型都訓練了120個epoch。

重取樣:對於TripletLoss,每個類有足夠的正樣本很重要,但有些類可能只有很少的樣本。

  因此,如果|S?|<?定義目標樣本大小?並重新取樣類例項,這是一種常見的做法。,導致小批量中的重複影像。我們憑經驗驗證,在我們的場景中省略重取樣過程是有益的。由於重取樣將噪聲引入類質心,因此我們僅使用可用的唯一類例項。

檢索程式:我們遵循[7]和[13]在推理階段利用批歸一化向量。同樣,我們使用餘弦相似度作為距離度量。對於ReID資料集,我們使用跨檢視匹配設定,該設定在其他ReID論文[7,10]中使用。該協議確保對於每個查詢,其由同一相機捕獲的相簿樣本在檢索過程中被排除在外。

3.3 Fashion檢索結果

表 1:時尚檢索結果。型號名稱中的S或L表示輸入影像尺寸,小(256x128)或大(320x320)。R50或R50IBN字尾表示使用了哪個主幹CNN,分別是Resnet50或Resnet50-IBN-A。模型名稱末尾的“CE”表示基於質心的評估。

(ICONIP2021)On the Unreasonable Effectiveness of Centroids in Image

  我們在表1中展示了時尚檢索的評估結果。我們評估了兩個模型:SOTA表示[13]中提出的模型,CTL-我們基於質心的模型。每個模型都以兩種模式進行評估:1)基於每個影像的標準例項級評估(對於SOTA和CTL模型),以及2)基於質心的評估,(在表1中用CE表示):CTL模型的評估在每個物件的基礎上,每個類的所有影像都用於構建類質心,檢索是在質心域中完成的。

  我們的CTL模型在所有測試資料集的大多數指標上都比當前的最佳狀態表現更好。特別值得注意的是mAP指標的激增,這可以通過使用質心減少搜尋空間的事實來解釋。使用基於質心的評估減少搜尋空間的同時減少了正例項的數量(從幾個減少到一個)。另一方面,Accuracy@K指標不受搜尋空間變化的影響。

3.4 行人再識別結果

(ICONIP2021)On the Unreasonable Effectiveness of Centroids in Image

  我們在表3中展示了人員重新識別的評估結果。與時尚檢索類似,我們評估以下模型:SOTA表示ReID[10]中的當前最先進的模型,CTL-我們基於質心的模型模型。我們只報告CTL模型的基於質心的評估結果,因為以前的方法經常任意限制搜尋空間。例如,[10](兩個ReID測試資料集上的當前SOTA)在檢索期間通過空間和時間約束減少搜尋空間,以通過消除人不可能在搜尋中移動一定距離的情況來減少候選者的數量給定的時間。他們的方法需要資料集中的額外資訊和構建過濾規則所需的世界知識,而不僅僅是影像理解。儘管僅依賴影像匹配,但我們基於質心的搜尋空間縮減在兩個資料集的所有指標上都取得了幾乎相同甚至更好的結果,在大多數指標上都優於[10],並建立了新的最先進的結果。

3.5 記憶體使用和推理時間

(ICONIP2021)On the Unreasonable Effectiveness of Centroids in Image

  為了測試我們的基於質心的方法與標準的基於影像的檢索相比的記憶體和計算效率,我們比較了評估所有測試資料集所需的掛鐘時間和儲存所有嵌入所需的儲存空間。表2顯示了例項級和基於質心場景的所有資料集的統計資料。可以看出,基於質心的方法顯著減少了檢索時間和儲存嵌入所需的磁碟空間。減少的原因是每個類通常有幾個影像,因此用質心表示一整組物件影像將成功檢索所需的向量數量減少到一個。

4、總結

  我們介紹了CentroidTripletLoss-一種用於例項檢索任務的新損失函式。我們憑經驗證實它顯著提高了檢索模型的準確性。除了新的損失函式外,我們還建議在檢索推理期間使用類質心,進一步提高檢索任務的準確度指標。我們的方法在來自兩個不同領域的四個資料集上進行了評估:人員重新識別和時尚檢索,並在所有資料集上建立了新的最先進的結果。除了提高準確性之外,我們還表明基於質心的推理可以顯著提高計算速度並降低記憶體需求。更高的準確性與更快的推理和更低的資源需求相結合,使我們的方法在應用工業環境中特別有用,例如例項檢索。

相關文章