安全人員曾為某著名車企自動駕駛系統做過一次安全測試,用物理對抗攻擊欺騙Autopilot車道檢測系統,導致汽車在Autopilot不發出警告的情況下駛入錯誤車道。假如這是一場真實的攻擊,後果不堪設想。事實上,AI系統如果沒有足夠的“免疫力”,甚至會被一張圖片欺騙,如將停車標誌識別為通行,在醫療應用中將有問題的醫療影像識別為正常影像等。
為幫助AI應用從源頭構建安全性,阿里安全圖靈實驗室整理歸納了學界針對AI模型提出的32種攻擊方法,以此為基礎搭建了一個自動化AI對抗攻擊平臺CAA,幫助檢測AI系統存在的安全漏洞。
經CAA“體檢”後,AI安全專家可針對被檢測AI的薄弱地帶提出安全建議,助力AI魯棒性(穩定性)檢測,以此增強AI系統的安全性,近日,該研究成果被人工智慧頂會AAAI2021接收。
相比業界此前提出的其他攻擊工具箱,阿里圖靈實驗室研發的自動化對抗攻擊平臺CAA首度實現了對抗攻擊的“工具化”。它讓AI應用的使用者即使不具備任何專業領域知識的情況下,也可以進行AI模型的對抗攻擊和魯棒性測試。
此外,CAA還可預先評估待檢測AI的特性,透過自動化搜尋技術來合成多個攻擊演算法的組合,提升了現有模型攻擊方法的效能和效率。阿里安全專家透過實驗表明,CAA超越了最新提出的攻擊方法,是可有效評估當前AI系統安全性的最強“攻擊”。
圖示:阿里安全提出的自動化對抗攻擊平臺CAA執行示意圖
以事前“攻擊演練”檢測AI系統的安全性,是當前提升安全AI的有效方法,也是阿里提出新一代安全架構,從源頭構建安全的核心理念。但如果不知道目標模型的防禦細節,研究者通常很難根據經驗選擇到對當前模型最優的攻擊演算法,從而難以驗證“體檢”的真實效果。
阿里安全圖靈實驗室演算法專家簫瘋表示,阿里安全首次提出將智慧技術引入到對抗攻擊中,使得所有攻擊細節和引數作為一個黑箱,而攻擊者只需要提供目標模型和資料,演算法就會自動選擇最優的攻擊組合和引數。
以AI體檢AI,以AI訓練AI。蕭瘋認為,對識別黃、賭、毒等不良內容的安全檢測AI而言,模型可靠性和魯棒性顯得尤為重要。目前,在鑑黃演算法上,圖靈實驗室正在藉此技術方法提升曝光、模糊、低畫質等極端分類場景下的模型識別能力,並且逐漸提升模型在極端場景下的魯棒性,為業界提供更安全可靠的AI演算法能力。