清華等高校推出首個開源大模型水印工具包MarkLLM,支援近10種最新水印演算法

机器之心發表於2024-06-18
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文由清華大學、上海交通大學、悉尼大學、UCSB、香港中文大學、香港科技大學、香港科技大學(廣州)聯合完成。主要作者包括:潘樂怡(第一作者),清華大學本科生,研究方向為大模型水印等;劉璦瑋,清華大學博士生,研究方向為安全可信大模型等;何志威,上海交通大學博士生,研究方向為大模型水印、大模型智慧體等;高梓添,悉尼大學本科生,研究方向為大模型水印;趙宣棟,UCSB博士生,研究方向為可信生成式AI等;胡旭明,香港科技大學/香港科技大學(廣州)助理教授,研究方向為安全可信大模型、資訊抽取等;聞立傑, 清華大學長聘副教授,研究方向為流程挖掘,自然語言處理

本⽂介紹由清華等⾼校聯合推出的⾸個開源的⼤模型⽔印⼯具包 MarkLLM。MarkLLM 提供了統⼀的⼤模型⽔印演算法實現框架、直觀的⽔印演算法機制視覺化⽅案以及系統性的評估模組,旨在⽀持研究⼈員⽅便地實驗、理解和評估最新的⽔印技術進展。透過 MarkLLM,作者期望在給研究者提供便利的同時加深公眾對⼤模型⽔印技術的認知,推動該領域的共識形成,進⽽促進相關研究的發展和推⼴應⽤。

圖片

  • 論⽂名稱:MarkLLM: An Open-Source Toolkit for LLM Watermarking

  • 論⽂連結:https://arxiv.org/abs/2405.10051

  • 程式碼倉庫:https://github.com/THU- BPM/MarkLLM

⼤模型⽔印技術的發展現狀 & 仍然⾯臨的問題

⼤模型⽔印是近期新興的⼀項技術,透過在模型⽣成⽂本過程中植⼊特定的特徵,來實現機⽣⽂本的辨別和來源追溯。它可⽤於虛假新聞檢測、維護學 術誠信、資料和模型版權保護等場景。

⽬前主流的⼤模型⽔印演算法是在⼤模型推理階段植⼊⽔印,這類⽅法主要分為兩⼤演算法家族:

圖片

  • KGW 家族:透過⼲預打分向量新增⽔印,將詞表分為紅綠列表,給綠⾊詞加偏置,使輸出偏好綠⾊詞彙;

  • Christ 家族:在打分向量⽣成後,⽤偽隨機數⼲預取樣過程,使⽔印⽂本與該隨機數更相關,以此植⼊⽔印。

然⽽,就像所有新興技術⼀樣,⼤語⾔模型⽔印技術在使⽤和理解上也⾯臨⼀些挑戰。

1. 如何便捷地使⽤各個⼤模型⽔印演算法進⾏⽔印新增和檢測?

各類⼤模型⽔印演算法不斷湧現。然⽽它們的實現⼤都基於作者⾃⾝的需求,缺乏統⼀的類和調⽤接⼝設計,使得研究⼈員和⼤眾需要投⼊⼤量精⼒去使⽤和復現這些演算法。

2. 如何直觀地理解各個⼤模型⽔印演算法的內部機制?

⼤模型⽔印演算法的底層機制相對複雜,涉及對⼤模型⽣成⽂本過程中打分向量⽣成以及取樣過程的⼲預,不便於研究者和⼤眾理解。

3. 如何便捷、全⾯的評估各個⼤模型⽔印演算法?

評估⻆度和指標多樣(包含可檢測性、魯棒性、對⽂本質量的影響等),且⼀次評估涉及多步驟,全⾯快速評估演算法效能極具挑戰。

MarkLLM:⾸個開源⼤模型⽔印多功能⼯具包

針對剛才提到的 3 個問題,作者設計並實現了⾯向⼤語⾔模型⽔印技術的⼯具包 MarkLLM。

MarkLLM 的主要貢獻可總結如下:

1. 功能⻆度

  • 統⼀的⼤模型⽔印演算法實現框架:⽀持兩個關鍵⽔印演算法家族(KGW 家族和 Christ 家族)的 9 種具體演算法。

  • ⼀致、⽤⼾友好的頂層調⽤接⼝:1 ⾏程式碼實現新增⽔印、檢測⽔印等各類操作。

圖片

  • 定製化的⼤模型⽔印演算法機制視覺化解決⽅案:使⽤⼾能夠在各種配置下視覺化不同⼤模型⽔印演算法的內部機制。

圖片

  • 全⾯、系統的⼤模型⽔印演算法評估模組:包含覆蓋 3 個評估⻆度的共 12 個評估⼯具,以及兩類⾃動化評估流⽔線。

圖片

圖片

2. 設計⻆度:模組化、松耦合架構設計,具有極⾼的可擴充套件性和靈活性。

3. 實驗⻆度:作者⽤ MarkLLM 作為研究⼯具,對⽀持的 9 種演算法做了 3 個評估⻆度的全⾯實驗,在證明 MarkLLM 的實⽤性的同時,為後續研究提供了寶貴的資料參考。

圖片

4. 對開源社群的影響⼒:MarkLLM 在 GitHub 上線 以來已經獲得了較多關注,⽬前已有 140+ stars, 並吸引了同⾏透過 Pull Request 進⾏程式碼貢獻,以及在 issue 欄⽬進⾏交流討論。

圖片

作者衷⼼希望 MarkLLM ⼯具包在為研究⼈員提供便利的同時,提⾼⼤眾對⼤語⾔模型⽔印技術的理解和參與度,促進學術界和公眾之間就該技術達成共識,推動⼤語⾔模型⽔印研究和應⽤的進⼀步發展,為⼤語⾔模型使⽤安全貢獻⼒量。

作者真誠歡迎⼤家提出寶貴意⻅、相互交流學習, 也⼗分歡迎透過 pull request 貢獻程式碼,透過⼤家的共同努⼒維護更好的⼤模型⽔印技術⽣態!

相關文章