ICML 2024 Oral|外部引導的深度聚類新正規化

机器之心發表於2024-06-06
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文作者李雲帆,四川大學計算機學院 2020級直博研究生。在導師彭璽教授的指導下,博士期間主要圍繞深度聚類開展理論、方法和應用的研究。目前已在國際權威刊物Nature Communications/JMLR/TPAMI/IJCV/ICML/CVPR等上發表學術論文13篇,谷歌學術引用共954次;發表於AAAI2021的Contrastive Clustering被引516次,是2021年以來聚類領域引用最高的論文;獲首批國家自然科學基金青年學生基礎研究專案(博士研究生)資助。

怎樣才能將可愛又迷人的柯基與柴犬的影像進行區分?

圖片

如果單從影像識別角度而言,兩種犬類在外觀上極為相似,擁有相近的色塊畫素,僅憑資料內蘊資訊(即影像自身)可能難以對二者進行區分,但如果藉助外部資料和知識,情況可能會大幅改觀。

近日,一篇以《Image Clustering with External Guidance》為題的論文,提出了能夠大幅提升CLIP影像聚類效能,引入外部知識庫內容輔助深度聚類的方法。

圖片

  • 論文題目:Image Clustering with External Guidance
  • 論文地址:https://arxiv.org/abs/2310.11989
  • 程式碼地址:https://github.com/XLearning-SCU/2024-ICML-TAC

背景

作為機器學習的經典任務之一,影像聚類旨在無需依賴樣本標註的情況下,將影像依據語義劃分到不同的類簇中,其核心在於利用先驗知識構建監督訊號。從經典基於類簇緊緻性的k-means到近年來基於增廣不變性的對比聚類[1],聚類方法的發展本質上對應於監督訊號的演進。

圖片

圖1: 聚類方法的發展大致可分為三個階段: (1)傳統聚類,基於資料分佈假設設計聚類策略; (2)深度聚類,利用深度神經網路提取有利於聚類的特徵; (3)自監督聚類,透過資料增廣或動量網路等策略構建自監督訊號。不同於此前的工作聚焦於從資料內部挖掘監督訊號,本文提出利用外部知識來引導聚類,並將新正規化歸類為 (4)外部引導聚類。實驗結果表明,透過利用文字模態中的語義資訊,所提出的方法(TAC)顯著提升了影像聚類精度。

現有的聚類研究雖然在方法設計上各不相同,但均是從資料內部挖掘監督訊號,其效能最終會受限於資料自身所蘊含資訊量的固有上限。舉例來說,柯基和巴哥犬的圖片有明顯的差異,但其和柴犬在外觀上十分相似,僅依據影像本身難以對二者進行區分。

但值得注意的是,在資料內蘊資訊之外,現實世界中還存在著大量有助於聚類的外部知識,而在現有工作中被很大程度地忽略了。

在上述例子中,假設模型具備來自知識庫的「柯基腿較短,而柴犬腿較長」等非影像域的外部先驗,則能更準確地對二者的影像進行區分。

換而言之,與從資料中竭力地挖掘內部監督訊號相比,利用更加豐富且容易獲得的外部知識來引導聚類,有望起到事半功倍的效果。

方法

本文提出了一種簡單而有效的外部引導聚類方法TAC(Text-Aided Clustering,文字輔助的聚類),基於預訓練CLIP模型,透過利用來自文字模態的外部知識輔助影像聚類

在缺乏類別標註和影像描述等文字資訊的情況下,利用文字語義輔助影像聚類面臨兩個挑戰:

  • 如何構建影像的文字表徵;
  • 如何協同影像和文字進行聚類

圖片

圖2:所提出的TAC方法框架,包括文字表徵構建跨模態互蒸餾兩部分。

一、文字表徵構建

針對第一個挑戰,由於樣本標註、影像描述等文字資訊在影像聚類任務中不可用,本文提出將來自WordNet[2]的所有名詞作為文字模態的候選詞,選擇其中具有代表性的名詞集合來組成文字空間。

具體地,為了使文字表徵精確地覆蓋影像語義,同時儘可能在不同類別影像之間具有區分度,本文首先使用k-means演算法來計算影像語義中心。

考慮到過多的語義中心會關注過於細粒度的特徵,不利於區分不同類別的影像,而過少的語義中心則會難以準確覆蓋位於聚類邊界影像的語義,本文提出根據樣本點的個數估計k-means演算法中合適的k值(實驗中選取k=N/300,N為影像個數),並計算影像語義中心如下:圖片
其中圖片當且僅當影像圖片屬於第l個聚類圖片表示第i張影像經過CLIP影像編碼器後得到的表徵。在得到影像語義中心後,為了選取具有代表性的名詞集合,與常見的CLIP Zero-shot分類相反,本文將所有WordNet中的名詞劃分到k個影像語義中心,其中第i個名詞屬於第l和語義中心的機率為:圖片
其中sim表示餘弦相似性圖片表示第i個名詞經過預訓練好的文字編碼器後得到的表徵。保留每個語義中心對應機率最高的名詞,作為組成文字空間的候選詞。

選取完具有代表性的名詞集合後,可透過為每張影像檢索其最相關的名詞來構建其文字模態的表徵:

圖片

其中,圖片表示第i張影像對應的文字模態中的表徵,圖片表示組成文字空間的第j個候選名詞,圖片控制檢索的平滑程度。

至此,作者為每張影像構建出了其在文字模態中的表徵。此時可透過在文字和影像的拼接表徵圖片直接使用經典k-means聚類方法來實現影像聚類

由於融入了來自文字模態的緊湊語義,拼接後的表徵具有更好的判別性,從而相較於直接在影像表徵上使用k-means會得到更好的影像聚類結果。

值得注意的是,上述文字模態的構建過程不需要任何的額外訓練和模型調優,其中名詞選取和檢索過程的計算開銷幾乎可以忽略不計。

二、跨模態互蒸餾

儘管直接將文字和影像表徵進行拼接已能顯著提升影像聚類效果,但是簡單的拼接並不能充分協同文字和影像兩個模態。因此,本文進一步提出跨模態互蒸餾方法,透過訓練額外的聚類網路進一步提升聚類效能。

具體地,為每張影像構建鄰居集合圖片,並引入一個聚類網路f對每個影像表徵做出聚類指派,在每次迭代中,計算所有影像和其鄰居集合中隨機的一個影像的聚類指派,記為:

圖片其中圖片圖片分別對應影像i及其鄰居的聚類指派,P和圖片均為n*K的矩陣,其中K表示目標聚類個數。

相類似的,引入另一個聚類網路g來對每個文字表徵做出聚類指派,同樣為每個文字表徵構建鄰居集合圖片,在每次迭代中,計算所有文字和其鄰居集合中隨機的一個文字的聚類指派,記為:
圖片其中圖片圖片分別對應文字i及其鄰居的聚類指派,Q和Q^N同樣均為n*K的矩陣。

為了協同影像和文字兩個模態,要求網路對於影像和其對應文字模態的鄰居具有類似的聚類指派,同時對於文字和其對應影像模態的鄰居也具有類似的聚類指派。為實現該目標,本文設計瞭如下的損失函式
圖片
其中圖片分別表示聚類指派矩陣P,P^N,Q,Q^N的第i列,圖片為溫度係數。該損失函式一方面能透過跨模態鄰居之間的聚類指派一致性實現圖文模態的協同,另一方面能擴大不同的類簇之間的差異性。

此外,為了使訓練過程更加穩定,本文設計了另外兩個正則項損失函式。首先,為了鼓勵模型做出更加置信的聚類指派,提出如下損失函式圖片損失函式圖片圖片均為獨熱(One-hot)編碼時被最小化,因此能提升聚類指派的置信度。另外,為了防止模型將大量影像和文字都分配到個別類簇中,提出了以下損失函式
圖片
其中圖片圖片分別表示影像和文字模態中整體的聚類分佈。

綜合上述三個損失函式,本文使用如下損失函式來最佳化影像和文字模態的聚類網路f和g:

圖片其中圖片權重引數。需要指出的是,上述損失函式只用來最佳化額外引入的聚類網路,並不修改CLIP預訓練好的文字和影像編碼器,因此其整體訓練開銷較小,實驗表明所提出的方法在CIFAR-10的6萬張影像上訓練僅需使用1分鐘。

訓練完成後,只需將待聚類的影像輸入聚類網路f,即可得到其聚類指派,從而實現準確的影像聚類

實驗

本文在五個經典資料集和三個更具挑戰性的影像聚類資料集上對方法進行了驗證,部分實驗結果如下:

圖片

表1:所提出的TAC方法在經典影像聚類資料集上的聚類效能

圖片

表2:所提出的TAC方法在更具挑戰性的影像聚類資料集上的聚類效能

從結果中可以看出,在缺少標註資訊的情況下所提出的TAC方法透過為每個影像構建文字表徵,能夠有效地從文字模態中挖掘語義資訊。在無需任何額外訓練的情況下,TAC (no train)顯著提高了直接在CLIP提取的影像表徵上使用k-means聚類的效能,特別是在更困難的資料集上。

當進一步使用提出的跨模態相互蒸餾策略訓練聚類網路時,TAC取得了最優的聚類效能,甚至超過了依賴類別標籤資訊的CLIP Zero-shot分類效能。

總結與展望

不同於現有的聚類研究聚焦於從資料內部構建監督訊號,本文創新性地提出利用此前被忽略的外部知識來引導聚類

所提出的TAC方法透過在無需文字描述的情況下,從預訓練CLIP模型的文字模態挖掘語義資訊,顯著提升了影像聚類效能,證明了所提出的外部引導聚類新正規化的有效性。

所提出的外部引導聚類正規化的挑戰在於:

  • 如何選擇合適的外部知識;
  • 如何有效的整合外部知識以輔助聚類

除了本工作關注的文字語義外,外部知識廣泛存在於各類的資料、模型、知識庫等,對於不同的資料型別和聚類目標,需要針對性地選擇與利用外部知識。

總的來說,在目前大模型、知識庫日趨成熟背景下,外部引導的聚類新正規化具備良好的發展潛力,希望未來有更多工作進行相關的探索。

參考文獻:
[1] Li Y, Hu P, Liu Z, et al. Contrastive clustering[C]//Proceedings of the AAAI conference on artificial intelligence. 2021, 35(10): 8547-8555.
[2] Miller G A. WordNet: a lexical database for English[J]. Communications of the ACM, 1995, 38(11): 39-41.

相關文章