機器學習如何看世界 對抗機器學習詮釋人工智慧和人類思維的不同

AIBigbull2050發表於2020-07-27

對於人類觀察者來說,以下兩個影像是相同的。但是Google的研究人員在2015年發現,一種流行的物體檢測演算法將左影像分類為“熊貓”,而將右影像分類為“長臂猿”。奇怪的是,它對長臂猿的形象更有信心。

有問題的演算法是GoogLeNet,這是一種卷積神經網路體系結構,贏得了2014年ImageNet大規模視覺識別挑戰賽(ILSVRC 2014)。

機器學習如何看世界 對抗機器學習詮釋人工智慧和人類思維的不同

對抗性例子使機器學習演算法愚蠢地犯了錯誤

正確的影像是“對抗示例”。它經歷了微妙的操縱,而人眼卻沒有注意到它,同時使其與機器學習演算法的數字眼完全不同。

對抗性示例利用了人工智慧演算法的工作方式來破壞人工智慧演算法的行為。在過去的幾年中,隨著AI在我們使用的許多應用程式中的作用不斷增強,對抗性機器學習已成為研究的活躍領域。人們越來越擔心,機器學習系統中的漏洞可能被用於惡意目的。

對抗性機器學習的工作產生了各種結果,從有趣,良性和令人尷尬的結果(例如跟隨烏龜被誤認為是步#槍)到潛在的有害示例,例如無人駕駛汽車誤將停車標誌視為限速。

Labsix的研究人員展示了一種改良的玩具烏龜如何使愚蠢的深度學習演算法歸類為步#槍(來源:labsix.org)

機器學習如何“看”世界

在瞭解對抗性示例如何工作之前,我們必須首先了解機器學習演算法如何解析影像和影片。考慮一個影像分類器AI,就像本文開頭提到的那樣。

在能夠執行其功能之前,機器學習模型經歷了“訓練”階段,在該階段中,將向其提供許多影像及其相應的標籤(例如,熊貓,貓,狗等)。該模型檢查影像中的畫素並調整其許多內部引數,以便能夠將每個影像與其關聯的標籤連結起來。訓練後,該模型應該能夠檢查之前從未見過的影像,並將其連結到正確的標籤上。基本上,您可以將機器學習模型視為一個數學函式,該函式以畫素值作為輸入並輸出影像標籤。

人工神經網路(一種機器學習演算法)特別適合處理雜亂和非結構化的資料,例如影像,聲音和文字文件,因為它們包含許多引數,並且可以靈活地將自己調整為訓練資料中的不同模式。當相互堆疊在一起時,人工神經網路將成為“深度神經網路”,並且它們進行分類和預測任務的能力也會提高。

機器學習如何看世界 對抗機器學習詮釋人工智慧和人類思維的不同

深度神經網路由幾層人工神經元堆疊而成

深度學習是使用深度神經網路的機器學習的一個分支,目前是人工智慧的前沿。深度學習演算法通常在人類以前無法完成的任務(例如計算機視覺和自然語言處理)上與人類相匹配,有時甚至勝過人類。

但是,值得注意的是,深度學習和機器學習演算法的核心是數字運算機器。他們可以在畫素值,單詞序列和聲波中找到微妙而複雜的圖案,但他們卻不像人類那樣看待世界。

這就是對抗性例子進入畫面的地方。

對抗性範例的運作方式

當您要求人類描述她如何在影像中檢測到熊貓時,她可能會尋找諸如圓耳朵,眼睛周圍的黑色斑點,鼻子,鼻子和毛茸茸的皮膚等身體特徵。她可能還會提供其他背景資訊,例如她希望看到熊貓的棲息地以及熊貓所採取的姿勢。

對於人工神經網路,只要透過方程式執行畫素值提供正確答案,就可以確信所看到的確實是熊貓。換句話說,透過正確調整影像中的畫素值,您可以使AI誤以為它沒有看到熊貓。

在本文開頭看到的對抗示例中,AI研究人員在影像上新增了一層噪點。人眼幾乎看不到這種噪音。但是,當新的畫素數透過神經網路時,它們會產生長臂猿影像所期望的結果。

機器學習如何看世界 對抗機器學習詮釋人工智慧和人類思維的不同

在左側的熊貓影像上新增一層噪點,使其成為一個對抗性示例

建立對抗性機器學習示例是一個反覆試驗的過程。許多影像分類器機器學習模型都提供了輸出列表及其置信度(例如,熊貓= 90%,長臂猿= 50%,黑熊= 15%等)。建立對抗性示例需要對影像畫素進行細微調整,然後透過AI重新執行它,以檢視修改如何影響置信度得分。進行足夠的調整後,您可以建立噪聲圖,從而降低對一個類別的信心,而對另一個類別進行增強。此過程通常可以自動化。

在過去的幾年中,在對抗性機器學習的工作和效果方面進行了大量的工作。2016年,卡內基梅隆大學的研究人員表明,戴上特殊眼鏡可能會使人臉識別神經網路矇騙,使他們誤以為是名人。

在另一種情況下,三星和華盛頓大學,密歇根大學以及加州大學伯克利分校的研究人員表明,透過進行細微調整以停止標誌,可以使它們對自動駕駛汽車的計算機視覺演算法不可見。駭客可能會利用這種對抗性攻擊迫使無人駕駛汽車以危險的方式行事,並可能導致事故。

機器學習如何看世界 對抗機器學習詮釋人工智慧和人類思維的不同

AI研究人員發現,透過新增黑白小貼紙來停止標誌,可以使它們對計算機視覺演算法不可見(來源:arxiv.org)

超越影像的對抗性例子

對抗性示例不僅適用於處理視覺資料的神經網路。也有針對文字和音訊資料的對抗性機器學習的研究。在2018年,加州大學伯克利分校的研究人員設法透過對抗性例子來操縱自動語音識別系統(ASR)的行為。諸如Amazon Alexa,Apple Siri和Microsoft Cortana之類的智慧助手使用ASR來解析語音命令。

例如,可以修改媒體上釋出的歌曲,使其播放時可以向附近的智慧揚聲器傳送語音命令。聽眾不會注意到變化。但是智慧助手的機器學習演算法會選擇並執行該隱藏命令。

對抗性示例也適用於處理文字文件的自然語言處理系統,例如過濾垃圾郵件,阻止社交媒體上的仇恨言論並檢測產品評論中的情緒的機器學習演算法。

在2019年,IBM Research,亞馬遜和德克薩斯大學的科學家建立了對抗性示例,這些示例可能愚弄文字分類器機器學習演算法,例如垃圾郵件過濾器和情感檢測器。基於文字的對抗性示例(也稱為“釋義攻擊”)會修改一段文字中的單詞序列,以在機器學習演算法中引起錯誤分類錯誤,同時保持與人類讀者一致的含義。

機器學習如何看世界 對抗機器學習詮釋人工智慧和人類思維的不同

強制AI演算法更改其輸出的釋義內容示例

防範對抗性例子

保護機器學習模型不受對抗性示例攻擊的主要方法之一是“對抗性訓練”。在對抗訓練中,機器學習演算法的工程師在對抗示例上對模型進行了重新訓練,以使其對資料擾動具有魯棒性。

但是對抗訓練是一個緩慢而昂貴的過程。必須對每個訓練示例進行對抗性弱點的探索,然後必須在所有這些示例上對模型進行重新訓練。科學家正在開發方法,以最佳化發現和修補機器學習模型中對抗性弱點的過程。

同時,AI研究人員也在尋找可以在更高層次上解決深度學習系統中對抗性漏洞的方法。一種方法涉及組合並行神經網路並隨機切換它們,以使模型對對抗攻擊更具魯棒性。另一種方法涉及從其他幾個網路構建廣義神經網路。通用架構不太可能被對抗性例子所愚弄。對抗性的例子清楚地提醒了人工智慧和人類思維的不同。

【編輯推薦】





來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2707071/,如需轉載,請註明出處,否則將追究法律責任。

相關文章