不影響輸出質量還能追蹤溯源,「大模型無偏水印」入選ICLR 2024 Spotlight

机器之心發表於2024-05-28
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文通訊作者為馬里蘭大學計算機系的博士生胡正冕,其導師為 Heng Huang。他的主要研究方向是取樣與機器學習理論,曾在ICML、NeurIPS、ICLR等頂級會議上發表多篇論文。郵箱: huzhengmian@gmail.com

隨著大語言模型(LLM)的快速發展,其在文字生成、翻譯、總結等任務中的應用日益廣泛。如微軟前段時間釋出的Copilot+PC允許使用者利用生成式AI進行團隊內部實時協同合作,透過內嵌大模型應用,文字內容可能會在多個專業團隊內部快速流轉,對此,為保證內容的高度專業性和傳達效率,同時平衡內容追溯、保證文字質量的LLM水印方法顯得極為重要。

如何從使用面的事後追溯管控生成式AI的應用,因此成為了一些研究者關注的議題。

為了應對這一挑戰,研究者們提出了在LLM生成過程中嵌入水印的方法,以實現對模型輸出內容的追蹤和溯源。

近日,馬里蘭大學、匹茲堡大學和滑鐵盧大學的研究者在ICLR 2024上發表了一項名為「Unbiased Watermark for Large Language Models」的研究,提出了一種新的LLM水印方法——無偏水印(Unbiased Watermark)

該方法不僅能在LLM生成過程中嵌入水印,實現內容溯源,還能保證嵌入水印後的文字質量不受影響。相關論文已被ICLR 2024會議接收為Spotlight論文。

圖片

圖片

  • 論文地址: https://openreview.net/pdf?id=uWVC5FVidc
  • 程式碼倉庫: https://github.com/xiaoniu-578fa6bff964d005/UnbiasedWatermark

無偏水印方法

傳統的LLM水印方法存在一個兩難困境:「如果水印訊號過強,雖然易於檢測,但會影響生成文字的質量;如果水印訊號過弱,雖然對文字質量影響小,但難以檢測。」

這一矛盾導致傳統水印方法難以在內容溯源和質量保證之間取得平衡。

為了解決這一問題,該研究提出了無偏水印方法

其核心思想是:利用多個水印分佈,而不是單一的水印分佈。這些水印分佈的組合能夠恢復原始的語言模型輸出分佈。在生成過程中,根據一個私鑰在所有可能的水印分佈之間進行選擇。

對於沒有私鑰的觀察者來說,含水印模型的期望輸出與原始模型完全一致,從而保證了無偏性。但對於擁有私鑰的人來說,相應水印分佈與原始分佈之間的差異可以很大,從而實現可靠的水印檢測。

無偏水印方法主要包括兩個關鍵元件:無偏重賦權(Unbiased Reweight)獨立水印碼(Independent Watermark Codes)

無偏重賦權的目的是確保含水印分佈的期望值與原始分佈相匹配。

研究者提出了兩種具體的無偏重賦權方法:δ-reweightγ-reweight

  • δ-reweight方法利用逆變換取樣(Inverse Transform Sampling)的思想,根據原始分佈和一個均勻分佈的隨機數來生成水印分佈。
  • γ-reweight方法則先對詞表進行隨機重排,然後對重排後的詞表進行分段線性變換,得到水印分佈。

理論分析表明,這兩種方法都滿足無偏性要求

不影響輸出質量還能追蹤溯源,「大模型無偏水印」入選ICLR 2024 Spotlight

δ-reweight和γ-reweight方法示例

為了保證整個序列的無偏性,水印碼在每一步生成過程中都必須是獨立的。由於水印碼依賴於上下文碼(Context Codes),研究者引入了上下文碼歷史(Context Code History)的概念。

在生成過程中,如果某個上下文碼出現過,就跳過水印嵌入,直接使用原始的語言模型輸出分佈。這樣可以避免重複的上下文碼導致的水印碼相關性,從而保證水印碼的獨立性。

圖片

水印的檢測

在水印檢測方面,該研究提出了兩種檢測方法:基於似然(likelihood-based)的檢測和無需似然(likelihood-agnostic)的檢測。

基於似然的檢測方法利用語言模型的輸出機率進行水印檢測。研究者首先介紹了對數似然比檢驗(LLR Test)的方法。LLR Test比較給定文字在原始分佈和水印分佈下的似然,如果似然比超過一個閾值,則判定該文字含有水印。

LLR Test在理論上是最優的檢驗方法,能夠在I類錯誤(假陽性)和II類錯誤(假陰性)之間取得最佳平衡。

然而,標準的LLR Test對原始分佈和水印分佈的擾動比較敏感。如果文字在水印檢測前被修改,真實的水印分佈可能與假設的水印分佈不同,導致檢測效能下降。為了解決這個問題,研究者提出了一種穩健的LLR Test變體。

該變體引入了一個新的最佳化問題,允許水印分佈有小幅度的擾動。實驗表明,穩健的LLR Test在面對文字修改時,仍然能保持較好的檢測效能

基於似然的檢測方法需要訪問語言模型的輸出機率,在某些情況下可能不易求解。

為此,研究者還提出了一種無需似然的檢測方法。該方法不依賴於語言模型的輸出機率,而是利用Gumbel Trick生成水印碼,並設計了一種新的打分函式。

理論分析表明,無需似然的檢測方法同樣能夠保證I類錯誤的上界。然而,與基於似然的檢測方法相比,無需似然的檢測方法的檢測效率較低,在相同的I類錯誤率下,通常需要更長的文字序列才能可靠地檢測到水印。

圖片

實驗結果

研究者在文字摘要和機器翻譯兩個任務上,評測了無偏水印方法的效能。

實驗結果表明,嵌入水印後的文字質量與原始模型輸出相當,在ROUGE、BLEU等指標上沒有顯著差異。相比之下,傳統的水印方法(如Soft Red List)會導致明顯的質量下降。

圖片

此外,研究者還測試了無偏水印方法對多種可能的文字變化的魯棒性,包括溫度改變,Top-k取樣,輸入擾動,模型擾動,隨機替換攻擊。

實驗表明無偏水印方法具有較強的魯棒性,能夠應對一定程度的文字修改攻擊。

總結

無偏水印方法為LLM水印技術提供了一種新的思路。透過新穎的取樣策略,該方法在保證生成文字質量的同時,實現了可靠的水印嵌入和檢測。這為解決LLM生成內容的濫用問題提供了一種有效的解決方案。

無偏水印技術在維持文字質量的同時,也可能引發一些倫理問題。由於使用者無法在不知道建立者私鑰的情況下檢測水印,這可能導致未經披露的跟蹤行為。

在實際應用中,人們應當謹慎、合乎倫理地應用無偏水印方法,並向使用者明確說明其存在,工作原理和意義。

相關文章