【論文系列】之 ---- CLIP

泪水下的笑靥發表於2024-11-11

CLIP(Contrastive Language-Image Pre-Training)

從名字顯而易見:語言-影像,預訓練,主要用於學習影像
該模型的核心思想是使用大量影像和文字的配對資料進行預訓練,以學習影像和文字之間的對齊關係
CLIP模型有兩個模態,一個是文字模態,一個是視覺模態,包括兩個主要部分

內容

該模型的核心思想是使用大量影像和文字的配對資料進行預訓練,以學習影像和文字之間的對齊關係。CLIP模型有兩個模態,一個是文字模態,一個是視覺模態,包括兩個主要部分:

  1. Text Encoder:用於將文字轉換為低維向量表示-Embeding。
  2. Image Encoder:用於將影像轉換為類似的向量表示-Embedding。

在預測階段,CLIP模型透過計算文字和影像向量之間的餘弦相似度來生成預測。這種模型特別適用於零樣本學習任務,即模型不需要看到新的影像或文字的訓練示例就能進行預測。CLIP模型在多個領域表現出色,如影像文字檢索、圖文生成等。

CLIP基本的結構構成

對於影像編碼器部分

Image Encoder
主要進行了以下的內容:
image
注意看裡面的Image Encoder,那麼他是什麼意思呢?我們來看看。。
首先將影像進行分割,以便於進行後續的影像處理操作
image

對於文字編碼器部分

image
主要進行文字的訓練過程

相關文章