一、學習目標
- 學習 VLM 的基本原理和架構,理解視覺和語言資訊的融合方式,掌握 VLM 的訓練方式與評估方法。
- 學習 VLM 在遙感領域的應用(RemoteCLIP、ChangeCLIP),並嘗試本地復現。
二、學習內容
文獻
An Introduction to Vision-Language Modeling
VLM 按照訓練方式可以分為四種:
-
基於對比式訓練的 VLM
透過對比式學習的方法來對齊影像和文字之間的表示,使得模型能夠理解和生成跨模態的內容。一般是用 InfoNCE 作為損失函式。常見的基於對比式訓練的 VLM 有 CLIP。 -
基於掩碼目標的 VLM
透過掩碼部分影像或文字,模型被迫理解未掩蓋部分的上下文,從而提高對整體影像和文字關係的理解能力。然而,更多學習的是影像的表象特徵(如紋理等),難以捕獲深層的語義資訊,並且不適合做生成任務。- 在 FLAVA 模型中,圖片被分為多個 patch,經過 dVAE 對映後隨機替換 patches,文字則隨機用 ‘[mask]’ 遮蔽,機率都為 15%。經過各自的多模態編碼器得到輸出後進行融合。
-
基於生成的 VLM
透過生成任務讓模型學習視覺和語言的多模態表示。- CoCa 透過對比訓練學習影像和文字之間的對比關係,然後在生成任務中根據影像逐步生成文字描述,模型同時最佳化這兩種任務的損失。
-
基於預訓練骨幹網路的 VLM
透過利用預訓練模型,使模型只需要學習一個文字模態和影像模態之間的對映,從而減少計算資源的需求。然而,僅僅學習文字和視覺表示之間的對映可能不足以捕捉兩者之間的深層次關聯。
VLM 訓練指南
-
訓練資料
透過其他模型生成合成資料,資料增強,人工標註。 -
軟體
(待補充) -
模型選擇
- 基於對比式訓練的 VLM 適合做影像-文字對齊或影像-文字檢索任務。
- 基於掩碼語言或影像的 VLM 適合處理上下文依賴的任務,如視覺問答、影像字幕生成。
- 基於生成的 VLM 通常以生成任務為主。
- 基於預訓練骨幹網路的 VLM 在計算資源有限的情況下很有幫助。
論文
RemoteCLIP: A Vision Language Foundation Model for Remote Sensing
- RemoteCLIP 的創新之處主要有資料擴充套件策略,透過 box-to-caption (B2C) 方法將目標框轉換為文字註釋,使目標檢測資料集能夠用於訓練。對於語義分割資料集,另外透過 mask-to-box (M2B) 將掩碼轉為目標框。這個方法擴充了資料集,解決了訓練資料不足的問題。
- RemoteCLIP 還可以完成目標計數任務,透過將原始描述中的數字替換為 1 到 10 的所有可能數字,生成九個額外的描述,並計算影像與每個描述的相似度分數,獲取最高分。但精確度有限。(感覺引入目標檢測任務會更加精確)
ChangeCLIP
- ChangeCLIP 主要用於視覺變化檢測任務,由四個模組組成:
- 第一個模組利用 CLIP 模型生成兩張不同時刻的遙感影像的文字提示。
- 第二個模組用 CLIP 的影像和文字編碼器作為特徵提取器。
- 第三個模組加入了差異特徵補償 (DFC) 模組,增強模型捕獲雙時態變化的能力。
- 第四個模組是一個視覺-語言解碼器。
下載在 SYSU_CD 資料集上預訓練的權重的本地測試結果:
- Idea:如果改進模型使之能監測城市建築的增減(具體數量),或者植被覆蓋率的變化,幫助城市的管理。
三、下階段目標
計劃探索多模態的目標檢測或語義分割任務。