ECCV 2024 | 讓GPT-4影像理解更易出錯,全新策略增強VLP模型對抗遷移性
机器之心發表於2024-07-22
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文作者分別來自南開大學、南洋理工大學和新加坡科技局。第一作者高森森為南開大學大四學生,此工作為其在新加坡科技局實習期間完成,實習導師為本文通訊作者郭青研究員(主頁:https://tsingqguo.github.io)。本文的共同第一作者和共同通訊作者是南洋理工大學的加小俊博後研究員(主頁:https://jiaxiaojunqaq.github.io)。針對視覺-語言預訓練(Vision-Language Pretraining, VLP)模型的對抗攻擊,現有的研究往往僅關注對抗軌跡中對抗樣本周圍的多樣性,但這些對抗樣本高度依賴於代理模型生成,存在代理模型過擬合的風險。為了解決這一問題,我們引入了對抗軌跡交集區域的概念。這個區域由乾淨樣本、當前對抗樣本以及上一步對抗樣本所構成的三角形區域。透過利用這一區域的多樣性,我們不僅考慮了更加多樣化的擾動方向,還關注了乾淨樣本週圍的對抗多樣性,從而提升了對抗樣本的遷移性。- 論文題目:Boosting Transferability in Vision-Language Attacks via Diversification along the Intersection Region of Adversarial Trajectory
- 論文連結:https://arxiv.org/pdf/2403.12445
- 程式碼連結:https://github.com/SensenGao/VLPTransferAttack
近年來,ChatGPT-4等視覺 - 語言預訓練模型(VLP)展示了強大的多模態理解和生成能力,在影像識別、文字生成等任務中表現出色。然而,這些模型的強大效能也伴隨著一個顯著的安全隱患:對抗攻擊(Adversarial Attacks)。對抗攻擊是指透過對輸入資料進行微小且難以察覺的擾動,誘使模型產生錯誤輸出。這種攻擊方式不僅可以影響模型的預測準確性,甚至可能導致嚴重的安全問題。由於 ChatGPT-4 等商業模型通常是閉源的,攻擊者無法直接訪問其內部引數和結構資訊,這使得直接攻擊這些模型變得困難。然而,攻擊者可以透過對類似的開源或已知結構的 VLP 模型(如 CLIP)進行研究,生成對抗樣本並將其應用於閉源商業模型。這種方法被稱為對抗攻擊的遷移攻擊(Transfer Attack)。對抗攻擊的遷移性研究具有重要意義。一方面,瞭解對抗攻擊在不同模型間的遷移性,可以提高對這些商業閉源模型的攻擊成功率,從而幫助我們更好地評估和提升閉源模型的安全性,防止潛在的安全漏洞。另一方面,透過研究對抗樣本在不同模型上的表現,可以進一步最佳化對抗訓練方法,提高模型的魯棒性和抗攻擊能力。 圖 1:現有方法對於 VLP 模型在代理模型和目標模型上的攻擊成功率 (圖片來源:SGA (arXiv:2307.14061))。SGA (ICCV2023 Oral) 是第一篇探索對 VLP 模型進行遷移攻擊的工作,但實驗結果顯示在目標模型上的攻擊成功率遠低於代理模型。本研究的目標是探索 SGA 方法在目標模型上遷移性較差的因素,進一步提高對 VLP 模型遷移攻擊的成功率。如圖 2 所示,SGA 採用迭代攻擊,並在迭代最佳化路徑上透過影像增強(Resize)來增加對抗樣本的多樣性。然而,這種多樣性僅考慮了對抗影像的周圍區域,而對抗影像由代理模型生成,容易導致過擬合,從而降低了遷移性。乾淨樣本完全獨立於代理模型,因此我們認為乾淨樣本週圍的對抗多樣性同樣重要。為此,我們利用對抗軌跡的交集區域構建更廣泛的多樣性,它由乾淨影像、當前對抗影像和上一步對抗影像構成。首先,我們在所提出的對抗軌跡交集區域中取樣多個影像,並得到多樣化的對抗擾動方向:此時即表示最佳的取樣影像,我們同時採用了 SGA 的思想,透過影像增強操作進一步探索最佳取樣影像周圍的對抗擾動多樣性,最終的迭代表示為:過去的研究在生成對抗文字時,先透過迭代最佳化生成對抗影像,隨後使對抗文字偏離最終生成的對抗影像。然而,正如我們前面所述,對抗影像高度依賴於代理模型,這樣生成的對抗文字也存在過擬合的風險。我們提議讓對抗文字偏離沿對抗軌跡的最後一個交集區域,具體而言,對抗文字應偏離由原始影像、倒數第二個對抗影像和最終對抗影像構成的三角區域。此外,我們設定了可調節的係數因子,其中。下表 1 顯示了在影像 - 文字檢索(Image-Text Retrieval, ITR)任務中跨模型攻擊的遷移性。相比於 SGA,我們的方法在多個跨模型遷移性上提升了 10% 以上。下表 2 顯示了利用在影像 - 文字檢索(ITR)任務上預訓練的 ALBEF 模型,生成多模態對抗樣本,以攻擊 RefCOCO + 資料集上的視覺定位(VG)任務和 MSCOCO 資料集上的影像描述(IC)任務。基線表示每個任務在沒有任何攻擊時的效能,較低的值表示對這兩個任務的對抗攻擊效果更好。從圖 3 和圖 4 可以看出,透過對抗攻擊,使 VLP 模型在視覺定位和影像描述任務上均出現了嚴重錯誤。下圖 5 顯示了對 ChatGPT-4 遷移攻擊的視覺化。下圖 6 顯示了對 Claude-3 遷移攻擊的視覺化。我們分別將乾淨影像和對抗影像輸入 ChatGPT-4,Claude-3 等大模型,並使用查詢「Describe this image.」得到輸出結果,我們從圖 5 和圖 6 可以看到,兩個大模型對對抗影像的理解已經出現很大的錯誤。儘管該工作在提升多模態對抗攻擊遷移性方面取得了顯著效果,但如何更充分地利用對抗攻擊的交集區域,以及提供更深入的理論解釋,仍然是未來值得深入研究的方向。我們對對抗軌跡交集區域及其對 VLP 對抗攻擊遷移性的研究還在持續探索中,歡迎大家持續關注。如果有任何問題或進一步的想法,隨時歡迎討論。