2024年9月學習月報

陈用饼發表於2024-10-09

原文網址 : https://www.cnblogs.com/cyb66666/p/18453371

一、學習目標

學習 VLM 的基本原理和架構，理解視覺和語言資訊的融合方式，掌握 VLM 的訓練方式與評估方法。
學習 VLM 在遙感領域的應用（RemoteCLIP、ChangeCLIP），並嘗試本地復現。

二、學習內容

文獻

An Introduction to Vision-Language Modeling

VLM 按照訓練方式可以分為四種：

基於對比式訓練的 VLM
透過對比式學習的方法來對齊影像和文字之間的表示，使得模型能夠理解和生成跨模態的內容。一般是用 InfoNCE 作為損失函式。常見的基於對比式訓練的 VLM 有 CLIP。
基於掩碼目標的 VLM
透過掩碼部分影像或文字，模型被迫理解未掩蓋部分的上下文，從而提高對整體影像和文字關係的理解能力。然而，更多學習的是影像的表象特徵（如紋理等），難以捕獲深層的語義資訊，並且不適合做生成任務。
- 在 FLAVA 模型中，圖片被分為多個 patch，經過 dVAE 對映後隨機替換 patches，文字則隨機用 ‘[mask]’ 遮蔽，機率都為 15%。經過各自的多模態編碼器得到輸出後進行融合。
基於生成的 VLM
透過生成任務讓模型學習視覺和語言的多模態表示。
- CoCa 透過對比訓練學習影像和文字之間的對比關係，然後在生成任務中根據影像逐步生成文字描述，模型同時最佳化這兩種任務的損失。
基於預訓練骨幹網路的 VLM
透過利用預訓練模型，使模型只需要學習一個文字模態和影像模態之間的對映，從而減少計算資源的需求。然而，僅僅學習文字和視覺表示之間的對映可能不足以捕捉兩者之間的深層次關聯。

VLM 訓練指南

訓練資料
透過其他模型生成合成資料，資料增強，人工標註。
軟體
（待補充）
模型選擇
- 基於對比式訓練的 VLM 適合做影像-文字對齊或影像-文字檢索任務。
- 基於掩碼語言或影像的 VLM 適合處理上下文依賴的任務，如視覺問答、影像字幕生成。
- 基於生成的 VLM 通常以生成任務為主。
- 基於預訓練骨幹網路的 VLM 在計算資源有限的情況下很有幫助。

論文

RemoteCLIP: A Vision Language Foundation Model for Remote Sensing

RemoteCLIP 的創新之處主要有資料擴充套件策略，透過 box-to-caption (B2C) 方法將目標框轉換為文字註釋，使目標檢測資料集能夠用於訓練。對於語義分割資料集，另外透過 mask-to-box (M2B) 將掩碼轉為目標框。這個方法擴充了資料集，解決了訓練資料不足的問題。
RemoteCLIP 還可以完成目標計數任務，透過將原始描述中的數字替換為 1 到 10 的所有可能數字，生成九個額外的描述，並計算影像與每個描述的相似度分數，獲取最高分。但精確度有限。（感覺引入目標檢測任務會更加精確）

ChangeCLIP

ChangeCLIP 主要用於視覺變化檢測任務，由四個模組組成：
1. 第一個模組利用 CLIP 模型生成兩張不同時刻的遙感影像的文字提示。
2. 第二個模組用 CLIP 的影像和文字編碼器作為特徵提取器。
3. 第三個模組加入了差異特徵補償 (DFC) 模組，增強模型捕獲雙時態變化的能力。
4. 第四個模組是一個視覺-語言解碼器。

下載在 SYSU_CD 資料集上預訓練的權重的本地測試結果：

Idea：如果改進模型使之能監測城市建築的增減（具體數量），或者植被覆蓋率的變化，幫助城市的管理。

三、下階段目標

計劃探索多模態的目標檢測或語義分割任務。

相關文章

2024.11多模態學習月報
2024-12-01
學習產品快報11月W1 | 學習計劃升級，增加立flag功能
2022-11-04
學習產品快報9月 | 支援海報分享，成就頁新增認可功能
2022-11-23
學習產品快報8月W2 | 學習首頁改版，小程式技能樹上線！
2022-11-23
200911月學習計劃
2020-04-05
11.20學習日報
2020-11-24
1118學習日報
2020-11-24
學習產品快報8月W3 | WAP端學習首頁改版，GO技能樹上線
2022-08-19
Go
學習產品快報09 | “CSDN學習”：增加學習提醒，提示學習不忘記
2022-06-02
學習產品快報7月 | 成就頁上線，技能樹支援分享
2022-11-23
學習產品快報8月W1 | 學習會員上線，成就頁增加PDF匯出功能
2022-11-23
我的7月19號~12月學習安排
2018-07-19
3月25日學習筆記
2019-03-25
筆記
4月19日學習進度
2024-04-19
3月11日學習進度
2024-03-11
4月28日學習進度
2024-04-28
3月22日學習進度
2024-03-22
3月16日學習進度
2024-03-16
3月13日學習進度
2024-03-13
3月14日學習進度
2024-03-14
3月21日學習日記
2019-03-21
3月22日學習日記
2019-03-22
3月23日學習筆記
2019-03-24
筆記
10月27日學習進度
2024-10-27
11月1日學習進度
2024-10-27
10月31日學習進度
2024-10-27
10月30日學習進度
2024-10-27
10月29日學習進度
2024-10-27
10月28日學習進度
2024-10-27
6月12日學習進度
2024-06-12
6月11日學習進度
2024-06-11
6月7日學習進度
2024-06-07
學習產品快報6月W1 | 擴充技能樹學習內容，優化當前筆記功能
2022-06-10
優化筆記
報班學習Linux貴嗎?學習Linux怎麼樣?
2021-09-29
Linux
學習週報（第一週）
2020-11-21
學習日報 day03
2020-10-26
第七週學習報告
2024-08-17
Java學習進度報告
2024-08-16
Java