研究人員發現:基於文字的AI模型容易受到改述攻擊
由於自然語言處理(NLP)的進步,越來越多的公司和組織開始利用AI演算法來執行與文字相關的任務,例如:過濾垃圾郵件、分析社交媒體帖子和評論、評估簡歷以及檢測假新聞。
但是,真的可以相信這些演算法能夠可靠地執行任務嗎?IBM,亞馬遜和德克薩斯大學的新研究證明:使用一些工具,可以攻擊文字分類演算法並以潛在的惡意方式對模型進行操縱。
在史丹佛大學舉行的SysML AI大會上,研究人員展示了這項有關“改述”攻擊的研究。其具體做法是修改輸入文字,以便在不改變其實際意義的情況下通過AI演算法對其進行不同的分類。
可以這樣簡單解釋“改述攻擊”是如何工作的:以使用AI演算法來評估電子郵件的文字並將其歸類為“垃圾郵件”或“非垃圾郵件”為例,改述攻擊會修改垃圾郵件的內容,使得AI將其分類為“非垃圾郵件”。
針對文字模型的對抗性攻擊的挑戰
在過去幾年中,一些研究小組已經探討了對抗性攻擊的各種方法。修改輸入將會導致AI演算法對影像和音訊樣本進行錯誤分類,如通過對標題或描述的修改,讓一些少兒不宜的內容被分類到少兒頻道中,對未成年人造成危害。但是,攻擊文字模型比篡改計算機視覺和音訊識別演算法要困難得多。
“對於音訊和影像,人類完全可以自行區分。” 人工智慧研究員兼語言模型專家Stephen Merity說。例如,在影像分類演算法中,人類可以逐步改變畫素的顏色,並觀察這些修改如何影響模型的輸出。這可以幫助研究人員發現模型中的漏洞。
“可是文字攻擊更加困難,因為它是離散的。在一個句子中,你不能說我想要多加10%的‘dog’這個詞。大部分情況是:一句話中有‘dog’這個詞,模型可以把有這個詞的句子進行某一種歸類。而且我們還不能有效地搜尋模型中的漏洞。”Merity說:“我們的想法是,能不能智慧地找出機器的弱點,然後把它推到特定的位置?”
“對於影像和音訊,做對抗性干擾是有意義的。但對於文字來說,即使你對文字做了一些小改動,比如只改動一兩句話,都可能導致這段話無法順利讀出來。”IBM的研究員兼研究論文的共同作者Pin-Yu Chen說。
過去關於對文字模型的對抗性攻擊的工作只涉及改變句子中的單個單詞。雖然這種方法成功地改變了AI演算法的輸出,但它經常導致修改後的句子聽起來是人為的。Chen和他的同事們不僅關注詞語的改變,而且還關注改寫句子和以有意義的方式改變更長的序列。
“我們正在嘗試解釋單詞和句子,通過建立在語義上與目標句子類似的序列來為攻擊提供更大的空間。然後我們要看看模型是否將它們歸類為原始句子。”Chen說。
研究人員開發了一種演算法,可以在句子中找到可以操縱NLP模型行為的最佳變化。“主要的困難是:要確保文字的修改版本在語義上與原始版本相似。我們開發了一種演算法,可以在非常大的空間中搜尋單詞和句子,這些修改將對AI模型的輸出產生最大的影響。在該空間中找到最佳對抗性示例非常耗時。該演算法計算效率高,並且提供了理論上的保證,它是人們可以找到的最佳搜尋。”IBM研究院科學家,該論文的另一位合著者Lingfei Wu說。
在他們的論文中,研究人員提供了改變情感分析演算法、假新聞檢測器和垃圾郵件過濾器行為的修改示例。例如,在產品評論中,將“The pricing is also cheaper than some of the big name conglomerates out there(這定價比現在的一些知名企業定的也還要低些)”改為“The price is cheaper than some of the big names below(這價格比下面的一些巨頭便宜)”,句子所表達的情緒就會從100%正面變為100%負面。
人類無法感知的改述攻擊
改述攻擊成功的關鍵在於它們是人類難以察覺的,因為它們保留了原始文字的語境和意義。
“我們將原始段落和修改後的段落給了人類評估員,他們很難看到意義上的差異。但對於機器而言,它完全不同。“Wu說。
Merity指出:改述攻擊不需要與人類完全一致,特別是當他們沒有預料到機器人會篡改文字時。他進一步解釋道:“我們每天都會遇到錯誤的輸入,對我們來說,這些只是來自真人回覆的不連貫的句子而已,以至於當人們看到拼寫錯誤時,並不會認為這是一個安全問題。但在不久的將來,它可能是我們必須應對的問題。”
Merity還指出,改述和對抗性攻擊將引發安全風險的新趨勢:“許多科技公司依靠自動化決策對內容進行分類,實際上並沒有涉及人與人之間的互動。這使得該過程容易受到此類攻擊。”Merity說:“改述攻擊或許會與資料洩露同時發生,除非我們將發現邏輯漏洞。”
例如,一個人可能會欺騙仇恨言語分類器來批准他們的非法言論,或利用簡歷處理模型中的釋義漏洞將他們的工作申請推送到列表的頂部。
Merity警告說:“這些型別的問題將成為這個時代新的威脅,我擔心這類攻擊恐怕不會引起企業重視,因為他們大都專注於自動化和可擴充套件性。”
改述攻擊並非都是壞事
研究人員還發現,通過逆轉改述攻擊可以構建更健壯、更準確的模型。
在生成模型錯誤分類的改述句子之後,開發人員可以使用修改後的句子及其正確的標籤來重新訓練他們的模型,這將使模型更具彈性,從而可以抵禦改述攻擊。
Wu表示:“這是我們在這個專案中的驚人發現之一。最初,我們僅僅是從從穩健的角度出發。但後來,我們發現這種方法不僅可以提高穩健性,還可以提高泛化能力。如果不用來攻擊的話,改述其實是一種非常好的泛化工具,可以提高模型的能力。”
論文連結:
https://arxiv.org/abs/1812.00151
參考連結:
相關文章
- 研究人員發現新的類 Spectre 攻擊 SplitSpectre
- YouGov:72%美國人感到容易受到網路攻擊Go
- 基於WPAD的中間人攻擊
- 研究人員報告新的針對工業基礎設施的攻擊
- 您的Linux伺服器是否容易受到Log4j的攻擊?Linux伺服器
- 美媒:為什麼政府如此容易受到勒索軟體攻擊?
- Cynerio:醫院中一半的聯網裝置容易受到黑客攻擊黑客
- 每 172 個活動 RSA 證書中就有一個容易受到攻擊
- 46%的本地資料庫容易受到攻擊,預計未來入侵仍會增加資料庫
- 研究人員演示對硬碟和作業系統的聲音攻擊硬碟作業系統
- 停止僥倖心理!中小企業越來越容易受到勒索軟體攻擊
- 超過1億個物聯網裝置容易受到黑客降級攻擊黑客
- 黑客試圖在受到攻擊的 WordPress 網站建立管理員帳戶黑客網站
- 基於snmp的反射攻擊的理論及其實現反射
- 研究發現人類天生就容易上當受騙
- 英國航運公司受到網路攻擊,網路攻擊對於企業有多可怕?
- 開發人員測試 Devin AI 後的發現devAI
- 基於TRIZ理論的服務機器人改進研究機器人
- 谷歌、哈佛研究人員開發新模型 用AI預測一年內餘震谷歌模型AI
- BTG(bitcoin gold)受到51%攻擊,攻擊者利用雙重支付獲利Go
- 研究人員發現macOS隱私保護重大漏洞 攻擊者可繞過蘋果隱私保護核心機制Mac蘋果
- 基於timestamp和nonce的防重放攻擊
- 基於TCP反射DDoS攻擊分析TCP反射
- 關於iOS HTTPS中間人攻擊iOSHTTP
- 普利茅斯大學:研究顯示孩子行為非常容易受到機器人的影響機器人
- 西班牙國家研究委員會遭受勒索軟體攻擊
- nmap攻擊技術原理簡述
- 中間人攻擊 -- Cookie噴發Cookie
- 【路徑規劃】基於蟻群的多無人機攻擊排程無人機
- 研究人員發現視訊會議抑制人們的創造力
- 淺談基於 NTP 的反射和放大攻擊反射
- 模型攻擊:魯棒性聯邦學習研究的最新進展模型聯邦學習
- 受到 1 萬點暴擊,二狗子被 DDoS 攻擊的慘痛經歷
- 利聯科技:無錫BGP伺服器受到的DNS汙染攻擊和其他型別攻擊的分析伺服器DNS型別
- Armis:研究發現醫院處於網路攻擊的高風險中 但患者沒有意識到
- 基於DFMEA的投影儀質量改進研究
- 基於DKHadoop的智慧人社服務平臺開發案例簡述Hadoop
- 警惕!Nas裝置正在受到Qlocker勒索軟體攻擊