谷歌 DeepMind和多位知名大學的安全研究員團隊發現,他們可以從ChatGPT這類大語言模型中提取出大量敏感的訓練資料,其中包括電話號碼、電子郵件和實際地址等。
根據該研究團隊釋出的論文,在ChatGPT中,只需要要求AI無休止地重複某個詞彙,就能洩露出其訓練資料內容。例如,研究人員讓ChatGPT無限重複“詩歌(Poem)”這個詞,聊天機器人最初會如指示般重複這個詞,但在重複幾百次之後,ChatGPT會開始生成“無意義”的輸出,其中包含了少量的原始訓練資料。
透過這種方式,他們成功地從開源(Pythia、GPT-Neo)、半開源(LLaMA、Falcon)和閉源(ChatGPT 3.5 Turbo)的AI模型中提取到大量訓練資料。這些AI模型不僅會提供基本的個人資料,另外還包括程式設計程式碼、比特幣地址、不當內容、研究論文以及其他從網路上收集的資訊。
研究人員還發現,其中有一些單詞會比其他單詞更容易讓生成式人工智慧模型洩露其訓練資料。例如,讓聊天機器人無休止地重複“公司”這個詞,相對會比其他詞(例如“知道”)更頻繁地產生訓練資料。
論文中稱,他們整個研究過程僅使用了200美元的預算,就出現了超過10000個例子。這意味著,攻擊者投入更多資金很可能提取到遠在這之上的資料。
研究人員在發表這份論文前已將此缺陷上報給了OpenAI,OpenAI目前已解決了這個問題。但是,研究人員也指出,該公司只是阻止而非修復了這一漏洞——他們只是讓模型拒絕任何永遠重複一個單詞的請求,或者過濾任何要求多次重複一個單詞的查詢。
編輯:左右裡
資訊來源:arxiv.org
轉載請註明出處和本文連結