[基礎] CLIP

fariver發表於2024-03-07

原文網址 : https://www.cnblogs.com/fariver/p/18057979

Learning Transferable Visual Models From Natural Language Supervision

link
CLIP 全稱 Contrastive Language-Image Pre-training

TL;DR

一種使用圖文對做預訓練的方法，影響力：打破傳統人工標準類別Label的預訓練方式。

Method

訓練階段：將圖文樣本對分別過Encoder抽取特徵，一個大小為N的Batch內，屬於同一組圖文對為正樣本對共N組，不同圖文組成樣本對為負樣本共N^2 - N組，以此構建對比學習Loss。
推理階段：將目標測試集所有類別標籤使用Text Encoder抽取Embedding特徵，影像特徵用KNN來預測對應標籤。
Code
論文中虛擬碼看得不是很明白，直接上原始碼：open_clip
Q：為什麼需要算兩次cross_entropy_loss然後再相加？
A：為了讓每個樣本能在其它卡的Batch中獲取到更多的負樣本對。比如，Text做為query時將其它卡的影像特徵都拿到做負樣本對，Image作Query時也把其它卡上的Text特徵作為負樣本對，那麼這個兩個Loss的值自然就不一樣了。

    def get_logits(self, image_features, text_features, logit_scale):
        if self.world_size > 1:
            all_image_features, all_text_features = gather_features(
                image_features, text_features,
                self.local_loss, self.gather_with_grad, self.rank, self.world_size, self.use_horovod)

            if self.local_loss:
                logits_per_image = logit_scale * image_features @ all_text_features.T
                logits_per_text = logit_scale * text_features @ all_image_features.T
            else:
                logits_per_image = logit_scale * all_image_features @ all_text_features.T
                logits_per_text = logits_per_image.T
        else:
            logits_per_image = logit_scale * image_features @ text_features.T
            logits_per_text = logit_scale * text_features @ image_features.T
        
        return logits_per_image, logits_per_text

    def forward(self, image_features, text_features, logit_scale, output_dict=False):
        device = image_features.device
        logits_per_image, logits_per_text = self.get_logits(image_features, text_features, logit_scale)

        labels = self.get_ground_truth(device, logits_per_image.shape[0])

        total_loss = (
            F.cross_entropy(logits_per_image, labels) +
            F.cross_entropy(logits_per_text, labels)
        ) / 2

        return {"contrastive_loss": total_loss} if output_dict else total_loss

Experiment

ZeroShot效果已經超過FewShot Of其它SSL預訓練方法了。

Conclusion

1.CLIP能充分利用大量圖文樣本作為影像與文字Encoder的預訓練資料。
2.文章實驗部分花了比較大篇幅證明了CLIP預訓練的影像Encoder有SOTA級別的表徵能力。
3.這種混合模態的預訓練方式，在後續跨模態特徵對齊過程中被廣泛使用。

canvas clip()
2018-08-09
Canvas
clip-cnblog
2024-05-27
Clip模型使用
2024-11-29
模型
CSS clip-path
2019-04-17
CSS
CSS3 clip
2018-08-23
CSSS3
CSS background-clip
2019-11-21
CSS
css: clip淺析
2020-01-03
CSS
tf.clip_by_value() 用法
2018-11-15
【論文系列】之 ---- CLIP
2024-11-11
WPF Image Image clip EllipseGeometry
2024-06-15
理解 OpenAI 的 CLIP 模型
2024-07-10
OpenAI模型
【FPGA基礎】Latch基礎
2024-04-08
FPGA
CSS3 background-clip
2018-07-21
CSSS3
Pandas 基礎 (2) - Dataframe 基礎
2019-03-07
前端基礎之jQuery基礎
2024-03-23
前端jQuery
python基礎中的基礎
2024-03-18
Python
Java基礎-語法基礎
2020-07-27
Java
[今日白學]元件的基礎的基礎的基礎
2019-04-01
元件
開啟stable diffusion webui時，提示缺少clip或clip安裝不上怎麼辦
2024-03-08
WebUI
有意思的clip-path
2019-02-21
Java基礎-物件導向基礎
2018-05-12
Java物件
Python基礎篇-Python基礎01
2024-04-07
Python
scala基礎語法-----Spark基礎
2020-09-29
Spark
Python基礎：語法基礎（3）
2018-12-22
Python
【web前端基礎 | JS基礎】物件
2020-12-20
Web前端JS物件
基礎
2024-05-01
Linux基礎學習——檔案基礎
2018-11-04
Linux
JavaScript 基礎卷（一）：基礎語法
2019-12-26
JavaScript
前端基礎入門四（JavaScript基礎）
2019-05-20
前端JavaScript
測試基礎（四）Jmeter基礎使用
2021-07-15
JMeter
c#基礎-基礎-16.string
2021-01-03
C#
ICML 2024| 大語言模型助力基於CLIP的分佈外檢測任務
2024-07-01
模型
Python基礎筆記01-Python基礎
2024-04-07
Python筆記
Go 基礎教程--2-基礎知識
2019-09-16
Go
Web測試基礎-Html基礎知識
2019-04-29
WebHTML
WiFi基礎(六)：天線基礎知識
2024-10-14
WiFi
Golang 基礎之基礎語法梳理 (三)
2022-03-20
Golang
多執行緒基礎-基礎實現
2020-12-12
執行緒