我們知道,AI 技術將在很長一段時間佔據網際網路技術時代的風口。但是,有程式碼的地方就有缺陷,提到技術很難不講安全,那麼AI會不會碰到安全問題呢?
AI安全
試想一下,未來的某個早晨,當你像往常一樣開啟無人駕駛的汽車車門,報出目的地,然後坐在後座上舒舒服服地瀏覽推送給你的各種新聞,汽車突然失控,在本該停止的紅燈前飛馳而過撞向了正在過馬路的行人,那將是怎樣一場災難。
人工智慧技術給生活帶來便利的同時,其自身的安全問題(AI安全)也不容忽視,AI安全問題可以歸納為內外2方面原因:
自身缺陷導致的模型出錯:例如,模型結構本身存在缺陷、或者訓練資料和真實場景資料之間的偏差,都可能導致模型預測錯誤。
外部攻擊導致的模型風險:例如,來自外部的對抗樣本攻擊可誘使演算法識別出現誤判漏判,輸出錯誤結果。
本文,我們會針對第2點的對抗樣本技術結合其在阿里巴巴安全領域中的實際應用給大家做展開介紹。
對抗樣本技術
對抗樣本由 ChristianSzegedy[1]等人提出,他們發現通過深度神經網路訓練得到的模型,在輸入與輸出之間的對映往往不是線性的。這樣就存在一個問題: 在輸入資料中通過故意新增肉眼不易察覺的細微擾動,可以生成對抗樣本,導致AI模型以高置信度給出一個錯誤的輸出。如下圖所示:
目前的對抗樣本根據是否需要指定攻擊的類目可以分為無目標攻擊(non-targeted attack)和目標攻擊(targeted attack)。前者不指定具體類目,只要讓AI識別錯誤即可。後者不僅需要使AI識別錯誤,還需要使AI識別到指定的類別。
生成對抗樣本,最直接的方法是在給定擾動量的範圍內修改樣本,使得修改後的樣本在AI模型上的損失函式最大化(非定向攻擊)或最小化(定向攻擊),這樣就可以把生成對抗樣本的問題歸納為空間搜尋的優化問題。基於不同的優化演算法,學術界提出了很多對抗樣本生成演算法,有興趣的朋友可以自行檢索,此處不具體展開。
對抗樣本應用場景
對抗樣本技術提出後引發了學術界和工業界對於深度學習模型在安全方面的廣泛關注,成為目前深度學習領域最火熱的研究課題之一,新的對抗攻擊方法不斷湧現,應用場景從影象分類擴充套件到目標檢測等。
阿里安全一直以來致力於用技術解決社會問題。為了保障整個生態圈中7億多消費者和千萬商家的資訊保安,AI技術很早就被應用到了阿里安全體系建設中。安全領域一個重要的特點就是存在很強的對抗性,日常防控中,黑灰產會嘗試使用各種對抗樣本攻擊我們部署的AI防控大壩。對此,一方面,阿里安全圖靈實驗室的演算法專家們提出了若干種提升模型安全效能的方法,強化自身堡壘;另一方面,演算法專家們也會以戰養戰,開展針對對抗樣本的攻防研究,利用對抗技術去防禦攻擊者的模型。下面我們結合實際業務,介紹兩種對抗樣本的應用場景:
1.人臉識別
人臉識別技術已經在生活的各個場景普遍應用,手機解鎖要靠臉、移動支付要靠臉,機場安檢要靠臉……一臉走天下的時代逐漸到來。
然而,Bose 和 Aarabi[2]發現通過在原始影象中加入人眼不可區分的微量干擾對人臉識別演算法進行攻擊後,能夠使人臉無法被檢測演算法定位到。如下圖所示,左列為原始影象,檢測演算法可以準確定位,右列為對抗樣本,已經成功繞開了人臉檢測演算法,而在我們肉眼看來兩幅圖畫基本沒有差別。
更進一步,採用對抗樣本攻擊人臉識別系統,還可以使演算法把人臉識別成指定的錯誤類別[3]。下圖第一列為目標類別,第2和第4列為原始樣本,對其加入干擾生成的對抗樣本在第3和第5列,它們均被演算法錯誤識別為第一列目標類別。
2.對抗驗證碼
如同網路通訊的基礎安全設施——防火牆,網際網路業務安全也有其基礎安全設施——圖片驗證碼和簡訊驗證碼。網際網路業務廣泛使用圖形驗證碼用於區分人類和機器的操作行為,使用簡訊驗證碼過濾黑灰產批量賬號及提供二次校驗功能。現在隨著深度學習的門檻越來越低,黑灰產會利用深度學習技術構建模型自動識別驗證碼,突破演算法模型設定的人機識別防線。下圖的文字驗證碼基本都可以被AI模型輕鬆識別。
針對文字驗證碼面臨的挑戰,阿里安全圖靈實驗室的演算法專家們將原始驗證碼替換成增加擾動後的對抗驗證碼。為了增加對抗驗證碼的識別難度,又不影響正常使用者的體驗,演算法專家們又在影象區域和生成方式上進行了組合擴充套件,最終生成的對抗樣驗證碼有效抵禦了黑灰產的批量破解,成為阿里業務安全的一道銅牆鐵壁。採用該組合擴充套件生成的對抗驗證碼如下圖所示:
針對點選式的圖文驗證與行為輔助驗證碼,阿里安全圖靈實驗室的演算法專家們首先在驗證碼中結合了NLP的問答技術,再將全部問答轉換成圖片,最後利用對抗技術生成對抗問答圖片。使用商業的OCR引擎進行對此類對抗問答圖片樣本進行識別測試,和原始樣本的識別率相比,對抗樣本的識別率大幅降低,且並沒有對使用者的體驗帶來很大的影響,由此可見AI結合安全能為業務帶來巨大的價值。
參考:
[1] C. Szegedy et al.,“Intriguing properties of neural networks,” arXiv:1312.6199 [cs], Dec. 2013.
[2] A. J. Bose and P. Aarabi,“Adversarial Attacks on Face Detectors using Neural Net based ConstrainedOptimization,” arXiv:1805.12302 [cs], May 2018.
[3] Q. Song, Y. Wu, and L.Yang, “Attacks on State-of-the-Art Face Recognition using AttentionalAdversarial Attack Generative Network,” arXiv:1811.12026 [cs], Nov. 2018.