AAAI 2025 | IML領域首個稀疏化視覺Transformer,程式碼已開源

机器之心發表於2025-01-06
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
SparseViT 的主要科研成員來自四川大學呂建成團隊,合作方為澳門大學潘治文教授團隊。

圖片

  • 論文:《Can We Get Rid of Handcrafted Feature Extractors? SparseViT: Nonsemantics-Centered, Parameter-Efficient Image Manipulation Localization through Spare-Coding Transformer》

  • 論文連結:https://arxiv.org/abs/2412.14598

  • GitHub:https://github.com/scu-zjz/SparseViT

隨著影像編輯工具和影像生成技術的快速發展,影像處理變得非常方便。然而影像在經過處理後不可避免的會留下偽影(操作痕跡),這些偽影可分為語義和非語義特徵。因此目前幾乎所有的影像篡改檢測模型(IML)都遵循「語義分割主幹網路」與「精心製作的手工製作非語義特徵提取」相結合的設計,這種方法嚴重限制了模型在未知場景的偽影提取能力。

研究內容

利用非語義資訊往往在區域性和全域性之間保持一致性,同時相較於語義資訊在影像不同區域表現出更大的獨立性,SparseViT 提出了以稀疏自注意力為核心的架構,取代傳統 Vision Transformer (ViT) 的全域性自注意力機制,透過稀疏計算模式,使得模型自適應提取影像篡改檢測中的非語義特徵。

研究團隊在統一的評估協議下復現並對比多個現有的最先進方法,系統驗證了 SparseViT 的優越性。同時,框架採用模組化設計,使用者可以靈活定製或擴充套件模型的核心模組,並透過可學習的多尺度監督機制增強模型對多種場景的泛化能力。

此外,SparseViT 極大地降低了計算量(最高減少 80% 的 FLOPs),實現了引數效率與效能的兼顧,展現了其在多基準資料集上的卓越表現。SparseViT 有望為影像篡改檢測領域的理論與應用研究提供新視角,為後續研究奠定基礎。

SparseViT 總體架構的設計概覽圖如下所示:

圖片

圖 1:SparseViT 總體架構。

主要的元件包含:

1. 負責高效特徵捕獲的 Sparse Self-Attention

Sparse Self-Attention 是 SparseViT 框架的核心元件,專注於在減少計算複雜度的同時高效捕獲篡改影像中的關鍵特徵即非語義特徵。傳統的自注意力機制由於 patch 進行 token-to-token 的注意力計算,導致模型對語義資訊過度擬合,使得非語義資訊在受到篡改後表現出的區域性不一致性被忽視。

為此,Sparse Self-Attention 提出了基於稀疏編碼的自注意力機制,如圖 2 所示,透過對輸入特徵圖施加稀疏性約束,設輸入的特徵圖圖片, 我們不是對 圖片的整個特徵上應用注意力,而是將特徵分成形狀為圖片的張量塊,表示將特徵圖分解為圖片個大小為圖片的不重疊的張量塊,分別在這些張量塊上進行自注意力計算。

圖片

圖 2:稀疏自注意力。

這一機制透過對特徵圖進行區域劃分,使模型在訓練中專注於非語義特徵的提取,提升了對影像篡改偽影的捕捉能力。相比傳統自注意力,Sparse Self-Attention 減少了約 80% 的 FLOPs,同時保留了高效的特徵捕獲能力,特別是在複雜場景中表現卓越。模組化的實現方式還允許使用者根據需求對稀疏策略進行調整,從而滿足不同任務的需求。

2. 負責多尺度特徵融合的 Learnable Feature Fusion (LFF)

Learnable Feature Fusion (LFF) 是 SparseViT 中的重要模組,旨在透過多尺度特徵融合機制提高模型的泛化能力和對複雜場景的適應性。不同於傳統的固定規則特徵融合方法,LFF 模組透過引入可學習引數,動態調整不同尺度特徵的重要性,從而增強了模型對影像篡改偽影的敏感度。

LFF 透過從稀疏自注意力模組輸出的多尺度特徵中學習特定的融合權重,優先強化與篡改相關的低頻特徵,同時保留語義資訊較強的高頻特徵。模組設計充分考慮了 IML 任務的多樣化需求,既能針對微弱的非語義偽影進行細粒度處理,又能適應大尺度的全域性特徵提取。LFF 的引入顯著提升了 SparseViT 在跨場景、多樣化資料集上的效能,同時減少了無關特徵對模型的干擾,為進一步最佳化 IML 模型效能提供了靈活的解決方案。

研究總結

簡而言之,SparseViT 具有以下四個貢獻:

1. 我們揭示了篡改影像的語義特徵需要連續的區域性互動來構建全域性語義,而非語義特徵由於其區域性獨立性,可以透過稀疏編碼實現全域性互動。

2. 基於語義和非語義特徵的不同行為,我們提出使用稀疏自注意機制自適應地從影像中提取非語義特徵。

3. 為了解決傳統多尺度融合方法的不可學習性,我們引入了一種可學習的多尺度監督機制。

4. 我們提出的 SparseViT 在不依賴手工特徵提取器的情況下保持了引數效率,並在四個公共資料集上實現了最先進的(SoTA)效能和出色的模型泛化能力。

SparseViT 透過利用語義特徵和非語義特徵之間的差異性,使模型能夠自適應地提取在影像篡改定位中更為關鍵的非語義特徵,為篡改區域的精準定位提供了全新的研究思路。相關程式碼和操作文件、使用教程已完全開源在 GitHub 上(https://github.com/scu-zjz/SparseViT)。該程式碼有著完善的更新計劃,倉庫將被長期維護,歡迎全球研究者使用和提出改進意見。

相關文章