CLIP(Contrastive Language-Image Pre-Training)
從名字顯而易見:語言-影像,預訓練,主要用於學習影像
該模型的核心思想是使用大量影像和文字的配對資料進行預訓練,以學習影像和文字之間的對齊關係
CLIP模型有兩個模態,一個是文字模態,一個是視覺模態,包括兩個主要部分
內容
該模型的核心思想是使用大量影像和文字的配對資料進行預訓練,以學習影像和文字之間的對齊關係。CLIP模型有兩個模態,一個是文字模態,一個是視覺模態,包括兩個主要部分:
- Text Encoder:用於將文字轉換為低維向量表示-Embeding。
- Image Encoder:用於將影像轉換為類似的向量表示-Embedding。
在預測階段,CLIP模型透過計算文字和影像向量之間的餘弦相似度來生成預測。這種模型特別適用於零樣本學習任務,即模型不需要看到新的影像或文字的訓練示例就能進行預測。CLIP模型在多個領域表現出色,如影像文字檢索、圖文生成等。
CLIP基本的結構構成
對於影像編碼器部分
Image Encoder
主要進行了以下的內容:
注意看裡面的Image Encoder,那麼他是什麼意思呢?我們來看看。。
首先將影像進行分割,以便於進行後續的影像處理操作
對於文字編碼器部分
主要進行文字的訓練過程