出品人:Towhee 技術團隊 張晨、顧夢佳
掩碼影像建模(MIM)通常會將輸入 token 的隨機子集替換為一個特殊的掩碼符號,目的是從損壞的影像重建原始影像 token。SimMIM 系統分析了該方法中的主要元件,從而提出了無需特殊設計、更為簡單的掩碼影像框架。將簡化後的 MIM 應用到 ViT-B,其預訓練模型在公開的影像資料集 ImageNet-1K 上能夠實現 83.8% 的 top-1 微調精度,成功超越之前最優模型。 當使用更大模型 SwinV2-H 時,SimMIM 僅需用 ImageNet-1K 訓練便能實現 87.1% 的 top-1 精度。SimMIM 還促進了 3B 模型 (SwinV2-G) 的訓練,減少 40 倍的訓練資料也能讓模型在四個具有代表性的視覺基準上達到最先進的水平。
An illustration of SimMIM.
SimMIM 發現在掩碼影像建模中,每個元件的簡單設計都顯示出非常強的表徵學習能力。當輸入影像的隨機掩碼具有適度的掩碼塊大小時(例如 32),能夠產生強大的前置任務。直接回歸預測 RGB 值的原始畫素,其效能也能夠媲美複雜設計的 patch 分類方法。另外,研究發現像線性層一樣的輕量預測頭的效能並不比多層的差。SimMIM 最終採用 Swin-B 作為預設 backbone,透過輕量級單層頭預測隨機掩碼塊的原始畫素值,並使用簡單的 L1 損失進行學習。
相關資料:
程式碼地址:https://github.com/microsoft/SimMIM
論文連結:SimMIM: A Simple Framework for Masked Image Modeling
更多資料:SimMIM | 續Kaiming的MAE後,MSRA提出更簡單的掩碼影像建模框架!