出品人:Towhee 技術團隊 王翔宇、顧夢佳
Masked Autoencoders (MAEs) 透過從可見資料的 token 重建帶掩碼的輸入資料,學習影像、文字、音訊、影片等的通用表徵。當前的影片 MAE 方法依賴於基於隨機補丁、通道、或基於影片幀的遮蔽策略來選擇這些 token。AdaMAE 在此基礎上提出一種端到端可訓練的自適應掩碼策略。它從高時空資訊區域取樣更多的 token,實現了遮蓋率高達 95% 的 token,從而降低記憶體需求並加速預訓練。透過在公開影片資料集 Something-Something v2 (SSv2) 上進行消融研究,AdaMAE 證明了該自適應取樣方法的有效性。該方法在資料集 SSv2 和 Kinetics-400 上的動作分類任務中均獲得了最先進的精度。
AdaMAEAdaMAE
提出自適應掩碼策略,利用輔助取樣網路根據語義上下文對可見token進行取樣。它會基於取樣網路估計的分類分佈對可見token進行取樣,並使用 ViT 編碼器-解碼器架構重建缺失的token。由於取樣過程是不可微分的,AdaMAE 透過最大化期望值重建損失來最佳化模型。這種自適應取樣過程會從高時空資訊區域取樣更多的 token,而從低資訊或冗餘區域取樣更少的 token。
相關資料:
程式碼地址:https://github.com/wgcban/adamae
論文連結:AdaMAE: Adaptive Masking for Efficient Spatiotemporal Learning with Masked Autoencoders