出品人:Towhee 技術團隊 顧夢佳
商湯和港中文聯合提出一種簡單但有效的掩碼影像建模(MIM)方法 MixMIM,透過建立混合影像利用BEiT和MAE的優點,又避免了它們的侷限性。MixMIM 可以有效地學習高質量的視覺表示,也能被廣泛應用於預訓練的層次化視覺 Transformer,比如 Swin Transformer、PVT 等。MixMIM 還探索了輕量級架構,將 Swin Transformer 修改為預訓練和知識遷移的編碼器。由於層次結構,MixMIM 適用於各種下游任務,比如影像分類、目標檢測、語義分割任務。實驗結果表明,在模型尺寸和 FLOPs 相似的情況下,MixMIM 在廣泛的下游任務上始終優於 BEiT 和 MAE,包括公開影像資料集 ImageNet、iNaturalist 和 Places上的影像分類,COCO上的目標檢測和例項分割,以及 ADE20K 上的語義分割。
Overview of MixMIM
給定訓練集中的兩幅隨機影像,MixMIM 使用隨機混合掩碼建立一幅混合影像作為輸入。模型會訓練一個層次化 ViT 來重建兩幅原始影像,用於學習視覺表示。不同於傳統方法中用特殊的掩碼符號替換輸入影像的掩碼 token,MixMIM 選擇用另一個影像的視覺 token 替換掩碼 token。另外,MixMIM 依然採用了編碼器-解碼器的結構設計。編碼器處理混合影像以獲得兩個部分掩蔽影像的隱藏表示,而解碼器則用於重建兩個原始影像。
相關資料:
程式碼地址:https://github.com/Sense-X/Mi...
論文連結:MixMIM: Mixed and Masked Image Modeling for Efficient Visual Representation Learning
更多資料:效能超MAE、BEiT和MoCoV3!商湯&港中文提出MixMIM:在混合影像上進行MIM