AI 安全在阿里業務中的實踐,你瞭解嗎?
我們知道,AI 技術將在很長一段時間佔據網際網路技術時代的風口。但是,有程式碼的地方就有缺陷,提到技術很難不講安全,那麼AI會不會碰到安全問題呢?
AI安全
試想一下,未來的某個早晨,當你像往常一樣開啟無人駕駛的汽車車門,報出目的地,然後坐在後座上舒舒服服地瀏覽推送給你的各種新聞,汽車突然失控,在本該停止的紅燈前飛馳而過撞向了正在過馬路的行人,那將是怎樣一場災難。
人工智慧技術給生活帶來便利的同時,其自身的安全問題(AI安全)也不容忽視,AI安全問題可以歸納為內外2方面原因:
自身缺陷導致的模型出錯:例如,模型結構本身存在缺陷、或者訓練資料和真實場景資料之間的偏差,都可能導致模型預測錯誤。
外部攻擊導致的模型風險:例如,來自外部的對抗樣本攻擊可誘使演算法識別出現誤判漏判,輸出錯誤結果。
本文,我們會針對第2點的對抗樣本技術結合其在阿里巴巴安全領域中的實際應用給大家做展開介紹。
對抗樣本技術
對抗樣本由 ChristianSzegedy[1]等人提出,他們發現通過深度神經網路訓練得到的模型,在輸入與輸出之間的對映往往不是線性的。這樣就存在一個問題: 在輸入資料中通過故意新增肉眼不易察覺的細微擾動,可以生成對抗樣本,導致AI模型以高置信度給出一個錯誤的輸出。如下圖所示:
目前的對抗樣本根據是否需要指定攻擊的類目可以分為無目標攻擊(non-targeted attack)和目標攻擊(targeted attack)。前者不指定具體類目,只要讓AI識別錯誤即可。後者不僅需要使AI識別錯誤,還需要使AI識別到指定的類別。
生成對抗樣本,最直接的方法是在給定擾動量的範圍內修改樣本,使得修改後的樣本在AI模型上的損失函式最大化(非定向攻擊)或最小化(定向攻擊),這樣就可以把生成對抗樣本的問題歸納為空間搜尋的優化問題。基於不同的優化演算法,學術界提出了很多對抗樣本生成演算法,有興趣的朋友可以自行檢索,此處不具體展開。
對抗樣本應用場景
對抗樣本技術提出後引發了學術界和工業界對於深度學習模型在安全方面的廣泛關注,成為目前深度學習領域最火熱的研究課題之一,新的對抗攻擊方法不斷湧現,應用場景從影像分類擴充套件到目標檢測等。
阿里安全一直以來致力於用技術解決社會問題。為了保障整個生態圈中7億多消費者和千萬商家的資訊保安,AI技術很早就被應用到了阿里安全體系建設中。安全領域一個重要的特點就是存在很強的對抗性,日常防控中,黑灰產會嘗試使用各種對抗樣本攻擊我們部署的AI防控大壩。對此,一方面,阿里安全圖靈實驗室的演算法專家們提出了若干種提升模型安全效能的方法,強化自身堡壘;另一方面,演算法專家們也會以戰養戰,開展針對對抗樣本的攻防研究,利用對抗技術去防禦攻擊者的模型。下面我們結合實際業務,介紹兩種對抗樣本的應用場景:
1.人臉識別
人臉識別技術已經在生活的各個場景普遍應用,手機解鎖要靠臉、移動支付要靠臉,機場安檢要靠臉……一臉走天下的時代逐漸到來。
然而,Bose 和 Aarabi[2]發現通過在原始影像中加入人眼不可區分的微量干擾對人臉識別演算法進行攻擊後,能夠使人臉無法被檢測演算法定位到。如下圖所示,左列為原始影像,檢測演算法可以準確定位,右列為對抗樣本,已經成功繞開了人臉檢測演算法,而在我們肉眼看來兩幅圖畫基本沒有差別。
更進一步,採用對抗樣本攻擊人臉識別系統,還可以使演算法把人臉識別成指定的錯誤類別[3]。下圖第一列為目標類別,第2和第4列為原始樣本,對其加入干擾生成的對抗樣本在第3和第5列,它們均被演算法錯誤識別為第一列目標類別。
2.對抗驗證碼
如同網路通訊的基礎安全設施——防火牆,網際網路業務安全也有其基礎安全設施——圖片驗證碼和簡訊驗證碼。網際網路業務廣泛使用圖形驗證碼用於區分人類和機器的操作行為,使用簡訊驗證碼過濾黑灰產批量賬號及提供二次校驗功能。現在隨著深度學習的門檻越來越低,黑灰產會利用深度學習技術構建模型自動識別驗證碼,突破演算法模型設定的人機識別防線。下圖的文字驗證碼基本都可以被AI模型輕鬆識別。
針對文字驗證碼面臨的挑戰,阿里安全圖靈實驗室的演算法專家們將原始驗證碼替換成增加擾動後的對抗驗證碼。為了增加對抗驗證碼的識別難度,又不影響正常使用者的體驗,演算法專家們又在影像區域和生成方式上進行了組合擴充套件,最終生成的對抗樣驗證碼有效抵禦了黑灰產的批量破解,成為阿里業務安全的一道銅牆鐵壁。採用該組合擴充套件生成的對抗驗證碼如下圖所示:
針對點選式的圖文驗證與行為輔助驗證碼,阿里安全圖靈實驗室的演算法專家們首先在驗證碼中結合了NLP的問答技術,再將全部問答轉換成圖片,最後利用對抗技術生成對抗問答圖片。使用商業的OCR引擎進行對此類對抗問答圖片樣本進行識別測試,和原始樣本的識別率相比,對抗樣本的識別率大幅降低,且並沒有對使用者的體驗帶來很大的影響,由此可見AI結合安全能為業務帶來巨大的價值。
重點來了
最近,阿里安全聯合IJCAI2019、天池大資料競賽平臺主辦了IJCAI-19 阿里巴巴人工智慧對抗演算法競賽,旨在對AI模型的安全性進行探索。這個比賽主要針對影像分類任務,包括模型攻擊與模型防禦。參賽選手既可以作為攻擊方,對圖片進行輕微擾動生成對抗樣本,使模型識別錯誤;也可以作為防禦方,通過構建一個更加魯棒的模型,準確識別對抗樣本。
本次大賽已啟動報名並公開樣例,吸引了來自國內外超過1000支隊伍報名,歡迎大家參加,與全球上千只隊伍同臺競技探討交流AI安全。
掃描二維碼,即可報名
同時,我們還會在全球知名的演算法盛會IJCAI-2019(澳門)上舉辦首屆AI for Business Security的Workshop,演算法競賽的優勝者也將被邀請前往。歡迎大家投稿和參會。詳情:https://security.alibaba.com/alibs2019
AI已經來臨,安全亦在前行。技術需要緊跟時代才會更有樂趣,也會遇到新的機會。歡迎各位技術小夥伴參賽參會,與我們交流探討、學習進步,一起見證安全+AI的新時代!
參考:
[1] C. Szegedy et al.,“Intriguing properties of neural networks,” arXiv:1312.6199 [cs], Dec. 2013.
[2] A. J. Bose and P. Aarabi,“Adversarial Attacks on Face Detectors using Neural Net based ConstrainedOptimization,” arXiv:1805.12302 [cs], May 2018.
[3] Q. Song, Y. Wu, and L.Yang, “Attacks on State-of-the-Art Face Recognition using AttentionalAdversarial Attack Generative Network,” arXiv:1811.12026 [cs], Nov. 2018.
你可能還喜歡
點選下方圖片即可閱讀
相關文章
- AI安全在阿里業務中的實踐,你瞭解嗎?AI阿里
- 你瞭解單例模式的最佳實踐嗎?單例模式
- 阿里P7:你瞭解路由嗎?阿里路由
- 你真的瞭解“SQL”嗎?《SQL優化最佳實踐》作者帶你重新瞭解SQLSQL優化
- 你真的瞭解資料在堆疊中的儲存方式嗎?
- 你瞭解實時計算嗎?
- 單測在商家前端業務中的實踐前端
- 你真的對 Linux 中的 Inode 瞭解嗎?Linux
- 你瞭解jsp中的c:forEach嗎?JS
- stl中的sort函式,你真的瞭解嗎函式
- Kotlin刨根問底(一):你真的瞭解Kotlin中的空安全嗎?Kotlin
- Nebula Graph 在網易遊戲業務中的實踐遊戲
- MySQL中的日誌檔案 你全都瞭解嗎?MySql
- ViewStub你真的瞭解嗎View
- 你瞭解Java反射嗎?Java反射
- 你真的瞭解mongoose嗎?Go
- 你真的瞭解 WebSocket 嗎?Web
- 裝飾者設計模式在業務中的實踐設計模式
- Module Federation在客服工單業務中的最佳實踐
- Java執行緒安全面試題,你真的瞭解嗎?Java執行緒面試題
- css3中的@font-face你真的瞭解嗎CSSS3
- 你真的瞭解HTTP中GET與POST的區別嗎?HTTP
- 【雲棲大會】業務和安全的融合實踐詳解
- 你瞭解argc和argv嗎(以及在devc++中如何命令列傳參)GCdevC++命令列
- JavaScript 你真的瞭解this指向嗎JavaScript
- 你真的瞭解前端路由嗎?前端路由
- 面試官:你瞭解Webpack嗎?面試Web
- 你真的瞭解RPC嗎?RPC
- 你真的瞭解URLEncode嗎?
- 你瞭解物聯網嗎
- 你真的瞭解“密碼”嗎?密碼
- 你真的瞭解nosql世界嗎?SQL
- 分散式鎖的多種實現方式,你瞭解嗎?分散式
- 你真的瞭解python嗎?這篇文章帶你快速瞭解!Python
- 深度學習在搜尋業務中的探索與實踐深度學習
- Java 中的深複製和淺複製你瞭解嗎?Java
- platform 模組 你真的瞭解你的計算機嗎?Platform計算機
- 你瞭解你和程式碼的生存環境嗎