當AI開始擁有“潛意識”

naojiti發表於2019-10-18

好久沒有跟大家聊聊演算法方面的新研究了。理由當然不是學術領域沒有新聞,畢竟頂會們收到的論文也是盆滿缽滿。但總體而言,說深度學習的理論研究一直在瓶頸期徘徊,想必也少有人會反對。

深度學習在應用上與廣大傳統行業融合,讓AI獲得了前所未有的大爆發。但正如史丹佛大學教授李飛飛所說,(深度學習)無論在智力、人力或機器裝置方面,都還有很長的路要走。

學無止境,不過在很長一段時間內,演算法領域幾乎沒有什麼重大顯著的進步,這也導致模型在落地部署中顯露出的一些先天不足,也使AI沒有停止過被質疑的命運。比如人工智慧氾濫所帶來的隱私問題,在要求科技企業進行自我約束的同時,對演算法的最佳化與完善顯然也很必要。

AI會如何影響人們的隱私?僅靠一篇文章或許無法回答這個複雜問題,但我們希望現在就開始丟擲它。

當神經網路擁有記憶

在探討隱私問題之前,我們先來聊聊老生常談的LSTM模型。

關於其作用,我們已經有過很多介紹了,簡單來說,就是在神經網路上加入記憶的概念,使模型可以記住長時間序列上的資訊,並作出預測。AI能寫出語句更通順的文章、與人類進行流暢自然的多輪對話等等神奇能力,都建立在這一能力基礎上。

隨後很長一段時間內,科學家們對神經網路的記憶進行了一系列的補充和擴充套件。比如引入注意力機制,讓LSTM網路可以對資訊進行長期而精確的跟蹤。再比如運用外部記憶來增強時序生成模型,提升卷積網路的效能。

總的來說,記憶能力的提升,一方面賦予了神經網路對關係進行復雜推理的能力這使其智慧得以明顯提高;而在應用端,寫作、翻譯、客服系統等智慧系統的體驗也大幅度升級。某種程度上,記憶是AI撕掉“人工智障”這一印象標籤的開始。

不過,擁有記憶力,也代表著兩個問題:一是神經網路必須要學會遺忘,從而釋放出儲存空間,只保留那些重要資訊。比如某部小說中一個篇章結束,那模型應當重置相關資訊,只保留對應的結果。

另外,神經網路的“潛意識”也需要被警惕。簡單來說,就是經過在敏感的使用者資料上進行訓練之後,機器學習模型被髮布給公眾時會不會不自覺地帶出那些敏感資訊呢?在這個人人皆可被採集的全民數字化時代,這是不是意味著隱私風險在加劇?

AI真的會偷偷記住隱私嗎?

對於這個問題,伯克利大學的研究人員做了一系列實驗,答案也許震撼很多人,那就是——你的資料,AI可能都記在心裡了。

想要理解神經網路的“無意記憶”,首先要引入一個概念,即過度擬合。

在深度學習領域,模型在訓練資料上的表現很好,在訓練資料之外的資料集上卻達不到同樣的精度或錯誤率,這就是出現了過度擬合。而造成這種從實驗室到現實樣例中的差異,主要原因是訓練資料中存在噪音,或者是資料量太少。

作為深度神經網路訓練時的常見副作用,過度擬合是一種全域性現象,也就是整個資料集的狀態。而要檢驗神經網路會不會偷偷“記住”訓練資料中的敏感資訊,要觀察的卻是區域性細節,比如某個模型是不是對某個示例(如信用卡號碼、賬戶密碼等)有特殊情結。

對此,伯克利的研究人員為了探尋模型的“無意記憶”,進行了三個階段的探索:

首先,防止模型的過度擬合。透過對訓練資料進行梯度下降和最小化神經網路的損失,保證最終模型在訓練資料上達到接近100%的精度。

然後,給機器一個理解語言底層結構的任務。這通常是透過在一系列單詞或字元上訓練分類器來實現的,目的是預測下一個標記,該標記將在看到前面的上下文標記後出現。

最後,研究人員進行了一個對照實驗。在給定標準的penn treebank(ptb)資料集中,插入了一個隨機數“281265017”,用來做安全標記。然後在這個擴充後的資料集上訓練一個小的語言模型:給定上下文的前一個字元,預測下一個字元。

從理論上來說,模型的體積都比資料集小很多,所以它不可能記住所有的訓練資料。那麼,它能記住那串字元嗎?

答案是YES。

研究者給模型輸入一個字首“隨機數是2812”,模型就愉快而正確地預測了整個剩餘字尾:“65017”。

更令人驚訝的是,當字首改為“隨機數為”時,模型卻不會緊接著輸出“281265017”這串字元。研究人員計算了所有9位字尾的可能性,結果表明插入的那串安全標記字元比其他字尾更有可能被模型選中。

至此可以謹慎地得出一個粗略的結論,那就是深度神經網路模型確實會在訓練過程中,無意識地記住那些投餵給它的敏感資料。

當AI擁有潛意識,人類該不該恐慌?

我們知道,今日AI已經成為一場跨場景、跨行業的社會運動,從推薦系統、醫療診斷,到密佈城市的攝像頭,越來越多的使用者資料被收集來哺育演算法模型,裡面都可能包含敏感資訊。

以前,開發者往往會對資料的敏感列進行匿名化 (anonymization)處理。但這樣並不意味著資料集中的敏感資訊就是絕對安全的,因為別有用心的攻擊者依然可以透過查表等方法反推原資料。

既然模型中涉及敏感資料已經不可避免,那麼衡量一個模型對其訓練資料的記憶程度,也是評估未來演算法模型安全性的應有之義。

這裡就需要解決三個疑惑:

1.神經網路的“無意記憶”會比傳統的過度擬合更危險嗎?

伯克利的研究結論是,儘管“無意記憶”在第一次訓練之後,模型就已經開始記住插入的安全字元了。但測試資料顯示,“無意記憶”中資料曝光率的峰值,往往隨著測試損失的增加,在模型開始過度擬合之前,就已經達到了峰值並開始下降。

因此,我們可以得出這樣的結論:“無意記憶”雖然有一定的風險,並不會比過度擬合更危險。

2.“無意記憶”的具體風險可能發生在哪些場景?

當然,沒有“更危險”並不意味著無意記憶不危險。實際上,研究人員在實驗中發現,利用這種改進的搜尋演算法,只需數萬次查詢就可以提取16位信用卡號碼和8位密碼。具體的攻擊細節已經被公之於眾。

也就是說,如果有人在訓練資料中插入了一些敏感資訊,併發布給世界時,那麼它被曝光的機率其實很高,即使它看起來並沒有出現過擬合現象。而且這種情況還不能立即引發關注,這無疑大大增加了安全風險。

3.隱私資料被暴露的前提有哪些?

目前看來,被研究人員插入資料集中的“安全字元”被暴露的可能性會比其他隨機資料更大,並且呈現正態分佈趨勢。這意味著,模型中的資料並不享有同樣機率的暴露風險,那些被刻意插入的資料更加危險。

另外,想要提取模型“無意記憶”中的序列也不是一件容易的事,需要純粹的“蠻力”,即無限的算力才能做到。舉個例子,所有9位社保號碼的儲存空間只需要幾個GPU數個小時的時間搞定,而所有16位信用卡號碼的資料規模則需要數千GPU年才能列舉。

目前來看,只要有了量化這種“無意記憶”,將敏感訓練資料的安全性控制在一定的範圍內。即知道一個模型儲存了多少訓練資料,又有多少被過度記憶,從而訓練出一個通向最優解的模型,幫助人們判斷資料的敏感性,以及模型洩露資料的可能性。

過去我們提到AI產業化,大多聚焦在一些宏觀層面,如何消除演算法偏見,如何避免複雜神經網路的黑箱性,如何“接地氣”實現技術紅利落地。如今伴隨著基礎改造與觀念普及的逐步完成,讓AI走向精細化、微觀層面的迭代升級,或許是產業端正翹首期盼的未來。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2660583/,如需轉載,請註明出處,否則將追究法律責任。

相關文章