AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
如果單從影像識別角度而言,兩種犬類在外觀上極為相似,擁有相近的色塊畫素,僅憑資料內蘊資訊(即影像自身)可能難以對二者進行區分,但如果藉助外部資料和知識,情況可能會大幅改觀。
論文題目:Image Clustering with External Guidance 論文地址:https://arxiv.org/abs/2310.11989 程式碼地址:https://github.com/XLearning-SCU/2024-ICML-TAC
如何構建影像的文字表徵; 如何協同影像和文字進行聚類。








其中
和
分別對應影像i及其鄰居的聚類指派,P和
均為n*K的矩陣,其中K表示目標聚類個數。






其中
為權重引數。需要指出的是,上述損失函式只用來最佳化額外引入的聚類網路,並不修改CLIP預訓練好的文字和影像編碼器,因此其整體訓練開銷較小,實驗表明所提出的方法在CIFAR-10的6萬張影像上訓練僅需使用1分鐘。
如何選擇合適的外部知識; 如何有效的整合外部知識以輔助聚類。