SCAttention 在mobilevit V1的模型中使用了fcaformer的交叉自注意力
主要修改內容:每層的第一個TransformerEncoder計算組內自注意力。計算完成後 還原特徵圖為BCHW形式,然後使用深度卷積下采樣,將下采樣的結果轉為BMC形式(批次大小,每個樣本對應的全域性token的數量 token的維度)。將分組注意力的計算結果送入ffn ,最後將ffn的結果和下采樣的結果同時返回。用一個列表記錄每次下采樣的結果,然後將列表中的所有透過token在token數量維度上拼接起來,和ffn的結果一同給到下一個TransformerEncoder,後面讓每組和自己所在樣本的全域性token計算交叉自注意力。程式碼在檔案中 SCAttention.rar cifar100資料集 67.7 acc 100 epoch