小白都能看懂的AI安全診斷技術 阿里已經用上了

阿里安全官網發表於2020-05-07

文章來源:阿里安全官網


如同一些出生免疫力就有缺陷的人一樣,AI也存在免疫力缺陷。基於從源頭打造安全免疫力的新一代安全架構理念,最近,阿里安全研究釋出了一項核心技術“AI安全診斷大師”,可對AI模型全面體檢,“看診開方”,讓AI模型出生就自帶增強型免疫力,抵禦安全威脅。


“AI安全診斷大師”包括一款對AI模型安全性進行評估和提升防禦能力的工具箱,對多個雲上演算法介面進行安全性測試後,還沉澱出一套在實際生產中能對惡意攻擊進行過濾,降低安全風險的AI防火牆系統。


中國科學院計算技術研究所副研究員王樹徽認為,在數字基建當中,人工智慧技術的安全問題關乎到整個資訊經濟基礎設施的安全,已越來越受到社會各界的關注。雖然近年來針對人工智慧安全的理論研究取得了一些進展,但在實際應用方面,仍然沒有切實可行的落地成果提高真實場景下人工智慧系統的魯棒性。


“阿里安全團隊提出了新一代安全架構及相關核心技術,正是針對數字基建中的人工智慧安全問題進行的一次體系化探索和創新。”王樹徽說。


“AI安全診斷大師”能幹什麼


AI在安全性上存在的問題來源於機器感知和人類感知的區別,人類感知是全域性的,同時具備底層區域性特徵和高層語義特徵的感知和認知能力,對於影像或者文字在某些區域性區域的微小擾動能夠有很高的容忍度,不易收到干擾。


科研實驗結果表明,目前主流的AI模型則對區域性的微小擾動可能會很敏感,一些細微不可見的改動就可以引起演算法輸出結果上的巨大誤差,這種針對AI模型產生的特定擾動被稱為對抗樣本。自從2014年對抗樣本被提出後,越來越多的研究人員通過實驗發現,面向影像、語音、文字等載體的分類、檢測、檢索等模型都會受到對抗樣本的攻擊。


對抗樣本攻擊產生的後果可能是非常嚴重的。在網際網路內容業務中,有些惡意行為可能通過上傳對抗樣本以規避演算法檢測或者繞開機器監管,導致不良資訊氾濫。或者通過佩戴經過特定設計、有對抗攻擊能力的眼鏡等物體,導致在手機解鎖、線下安防等領域誤導AI系統,引發事故或者損失。


車輛的輔助駕駛和自動駕駛系統也可能會因AI技術的安全缺陷喪失識別交通指示牌的能力,成為“沒有視覺系統”的汽車,從而給出錯誤的決策,遇到大型障礙物時“看不到”停車標誌,威脅人身和財產安全。


據阿里安全圖靈實驗室高階演算法專家華棠介紹,“AI安全診斷大師”可針對AI本身的安全問題,提供全方位的安全效能評估服務和定製化的防禦提升方案。通過測試和發現演算法可能出錯的某些特殊情形,給出有針對性的模型防禦增強建議。


值得注意的是,“安全診斷”看得見。這種“安全診斷”能給出診斷的綜合分數、單項分數,並將安全威脅展示出來。“AI安全診斷大師”提供了模型安全性視覺化分析結果,將模型的損失曲面相對不同方向的擾動量以二維及三維圖例來呈現出來。


下圖可以直觀地看出AI模型面對擾動下的安全性,或者對不同模型進行安全性對比,曲面越平緩的演算法對惡意攻擊更加魯棒,安全性更強。下圖是模型輸出loss與擾動的對應關係,其中橫軸是隨機擾動,縱軸是對抗擾動,可以看出在隨機擾動方向上不斷加大噪聲強度,但loss變化趨勢平緩,表明模型對隨機擾動具備一定的魯棒性。而在對抗擾動方向上加大噪聲強度可能導致loss急劇加大,導致模型輸出結果發生變化,攻擊成功。


小白都能看懂的AI安全診斷技術 阿里已經用上了

小白都能看懂的AI安全診斷技術 阿里已經用上了

圖片說明:“AI安全診斷大師”的視覺化診斷結果介面


目前研究人員已經提出了不少對抗樣本攻擊方法,不同模型對於不同的攻擊演算法的防禦能力表現也會不一樣,因此對AI模型進行安全評估時,需要針對各種攻擊演算法進行獨立評估,同時也有必要綜合多個評估結果給出整體結論。


為此,“AI安全診斷大師”整合了目前業界常見的攻擊演算法,同時也在不斷補充這一集合。對於目標模型,基於每種演算法都能給出擾動量-識別率曲線以評估模型面對該演算法攻擊下的防禦效能,綜合了各種演算法和各擾動量下的識別率給出最終安全性評估分值。


以下是“AI安全診斷大師”分別處於Resnet50和VGG16中,在不同攻擊下的魯棒性表現。橫軸是擾動的噪聲強度,縱軸是模型識別準確率,每一條實曲線表示一種攻擊方法,可以看出使用相同攻擊方法時擾動強度越大則攻擊成功率越高,導致模型識別準確率下降越多;而虛線是在每一個擾動強度下多種攻擊方法下模型識別準確率的最小值組成的,表示模型在該擾動強度下的最低防禦能力。因此,曲線下的面積可用於評估模型在各攻擊方法和綜合方法下的魯棒性。


小白都能看懂的AI安全診斷技術 阿里已經用上了

小白都能看懂的AI安全診斷技術 阿里已經用上了

圖片說明:“AI安全診斷大師”在不同攻擊下的魯棒性表現


除了對模型進行面對白盒攻擊的安全評估之外,它還可以提供黑盒攻擊實驗並進行安全評估。就好比對於那些不方便“面診”的“患者”,只能提供API介面的AI服務,“AI安全診斷大師”提供了多種黑盒查詢攻擊和遷移攻擊的手段,只需要呼叫介面即可評測服務的安全性。


對於模型的安全效能評估不是最終目標。“AI安全診斷大師”檢測出演算法服務的潛在安全風險後,還會提供針對惡意攻擊的防火牆功能,通過演算法對不同種類攻擊的脆弱性程度,定製化提出防禦升級的方案。


下圖是通過黑盒遷移攻擊針對多個演算法API進行實驗後,繪製的成功率直方圖報告。圖中左側部分是在輸入樣本中新增不同的隨機噪聲後,導致演算法輸出結果出錯的比例,在大部分情況下各API都具備了較高的魯棒性,右側則是使用不同的對抗樣本生成方法進行的攻擊,其中白盒攻擊成功率最高,而黑盒攻擊下各API之間的成功率差別就非常明顯了,也表示它們所用的模型在安全性上的差距。


小白都能看懂的AI安全診斷技術 阿里已經用上了

圖片說明:“AI安全診斷大師”給多個演算法API出具的遭遇攻擊的體檢報告


“將多種攻擊檢測和對抗防禦方法作為附加模組,可為AI模型部署前置服務,在不修改原模型的基礎上,提升模型對於對抗樣本攻擊的防禦效能,降低使用者使用成本和風險。經過在色情、暴恐、敏感影像識別等多種內容安全服務上的測試,‘AI安全診斷大師’可將模型對外部攻擊的有效防禦能力整體提升40%以上。”華棠說。


王樹徽評價:“阿里安全從整體層面考慮了人工智慧安全的架構性漏洞,提出了‘安全基建’的構想和技術系統。在關鍵技術層面,整合了最新的AI攻防技術,充分考慮了人工智慧安全攻防兩端的應用需求,分析結果可解釋性強,易於理解並指導實踐。在實用層面,提供了一套切實可行、即插即用的解決方案,定製化提出防禦升級方案,幫助廣大人工智慧技術實踐者有效提高其演算法系統的免疫力和安全水平。此外,阿里安全的新一代安全架構的應用成果也有望促進人工智慧技術的發展和進步,為新一代人工智慧的理論方法研究提供了支援。”


目前阿里安全正在與相關部門、高校、企業一起參與人工智慧安全標準的制定,“AI安全診斷大師”作為優秀應用案例被收錄於全國資訊標準化技術委員會打造的《人工智慧安全標準化白皮書(2019版)》。


對AI攻防的探索


除了嘗試將模型攻擊防禦技術在實際演算法服務場景上落地,阿里安全圖靈實驗室的工程師也在堅持研發新技術推動AI安全更好地服務實際應用。

在攻擊方面,他們提出一種針對k近鄰分類器的攻擊方法,k近鄰分類器作為無參模型,不會回傳梯度,也就無法提供資訊用於對抗樣本的生成。為了攻擊這樣的模型,研究者們設計了一種新的策略,提出了深度k近鄰區塊(DkNNB),用於估計k近鄰演算法的輸出。具體的,提取深度分類模型某層特徵,使用k近鄰方法可以獲得其最近的k個鄰居,並統計這些鄰居的標籤分佈,以每類出現概率分佈作為最終的優化目標,來優化DkNNB引數。


小白都能看懂的AI安全診斷技術 阿里已經用上了

圖片說明:針對目前防禦效能突出的kNN模型進行攻擊實驗


在防禦方面,他們提出了一種基於Transformer的對抗樣本檢測方法,改進了傳統對抗樣本檢測方法只能檢測特定攻擊,難以泛化到其他攻擊的缺陷。新的對抗樣本檢測方法通過自適應的學習樣本在特徵空間中與其k近鄰個樣本特徵之間的關聯,得到比傳統用特徵空間人工距離度量來分類,更加泛化通用的檢測器。該方法面向更加實際場景的對抗攻擊檢測,目前已在某些內部場景中測試使用。


小白都能看懂的AI安全診斷技術 阿里已經用上了

圖片說明:通過Transformer框架來更好的檢測對抗樣本


另外,阿里安全圖靈實驗室的研究者發現,自監督模型在對抗樣本上的具有的天然防禦能力,以此為基礎,提出了一種新的基於自監督模型的對抗訓練方法,進一步提升了模型的防禦能力,以上兩個工作即將線上上舉辦的ICASSP 2020學術會議發表。


小白都能看懂的AI安全診斷技術 阿里已經用上了

圖片說明:基於自監督模型的對抗訓練


不久前,阿里安全還發布了一個高效打造AI深度模型的“AI訓練師助手”,讓AI訓練模型面對新場景時不用從頭學習,直接從已經存在的模型上遷移,迅速獲得別人的知識、能力,成為全新的AI模型,將模型打造週期從一個月縮短為一天。


搭建AI安全研究者社群


為了讓AI對抗研究進展更快,阿里安全圖靈實驗室正在搭建對抗攻防研究者社群,聯合天池承辦一系列AI對抗攻防競賽,並面向頂尖高校企業進行推廣,吸引了大批高水平的選手。已舉辦的比賽覆蓋了從ImageNet影像分類、淘寶類目識別、人臉識別等多個場景。


阿里安全圖靈實驗室的工程師們開發了完整的後臺評估框架,可以評測包含白盒/黑盒攻擊、有目標/無目標攻擊、模型防禦等多種攻防場景。


華棠表示,從已經成功舉辦的比賽看,多種外部選手提供的攻擊或者防禦策略,為發現更多實際場景中AI演算法的潛在威脅,並針對這些威脅開發魯棒模型提供了參考。


阿里安全圖靈實驗室在2019年上半年成功舉辦了阿里巴巴首個AI對抗演算法競賽,以淘寶寶貝主圖影像類目分類預測作為場景,公開了11萬張,110個類的淘寶商品影像資料集,包含服裝、鞋子、生活家居用品等類目。


比賽通過無目標攻擊,有目標攻擊和防禦三個賽道進行,吸引了2500支高校隊伍參加。推動了AI安全領域被更多人知曉,並打造了AI對抗樣本研究者社群,促進交流的同時,也讓更多感興趣的人加入到其中來。


隨後,阿里安全圖靈實驗室聯合清華大學舉辦安全AI挑戰者計劃系列賽,探索在現實場景中,對抗攻擊的可行性。為了模擬最真實的黑盒場景,這個系列賽並不公開後臺演算法,也禁止選手大量query後臺模型。第一季的安全AI挑戰者計劃分為三期,場景分別為人臉識別,ImageNet影像分類,以及文字分類。現在,第一季的安全AI挑戰者計劃已經結束,選手們參賽的同時也體驗了真實場景中AI安全攻防的複雜性。


如果你也想與阿里安全圖靈實驗室的工程師一起搞事情,歡迎投遞簡歷至:heyuan.hy@alibaba-inc.com


文章來源:阿里安全官網

相關文章