普林斯頓王夢迪團隊提出蛋白水印方法,助力AI蛋白生成的版權保護與安全

ScienceAI發表於2024-11-06

圖片

編輯 | 蘿蔔皮

近年來,隨著生成式人工智慧的發展,蛋白質結構預測和設計的能力顯著提高。然而,蛋白質生成模型在版權保護和生成有害內容(例如生物安全)方面面臨著諸多問題。

生物大模型的構建和訓練十分昂貴,有著保護模型版權和生成結果的現實需要;同時,需要有技術可靠地追蹤和驗證生成蛋白質結構,消除潛在的生物安全隱患。

普林斯頓大學王夢迪團隊提出了一種名為 FoldMark 的水印方法,旨在嵌入水印資訊以進行版權驗證和生成結構的追蹤。

FoldMark 透過兩個階段嵌入水印:首先預訓練水印編碼器和解碼器,然後透過微調生成模型,使其既能生成高質量的蛋白質結構,又能嵌入水印資訊。

該研究以「FoldMark: Protecting Protein Generative Models with Watermarking」為題,於 2024 年 10 月 28 日釋出在 bioRxiv 預印平臺。

圖片

論文連結: https://www.biorxiv.org/content/10.1101/2024.10.23.619960v1

隨著生成式人工智慧和生物技術的進步,蛋白質生成和結構預測模型如 AlphaFold 和 RFDiffusion 等取得了顯著進展,推動了 de novo 蛋白質設計的革命。

然而,這些技術的發展也帶來了版權和生物安全的擔憂,特別是在模型共享和生成結構的濫用方面。因此,亟需有效的追蹤和審計工具,從而防止潛在的生物安全風險和保護原始創作者的權益。

水印技術被認為是一種有前景的解決方案,但在蛋白質結構中實現這一目標面臨諸多挑戰。因為蛋白質結構對微小的變化高度敏感,嵌入水印而不破壞蛋白質的生物功能和穩定性是一項非常複雜的任務。

普林斯頓大學王夢迪團隊提出 FoldMark,這是一種用於蛋白質生成模型的通用水印方法。

圖片

圖示:FoldMark 概述。(來源:論文)

FoldMark 在預訓練的蛋白質生成模型基礎上進行開發,通常包括兩個訓練階段:

在第一個階段,預訓練一個 SE(3)-等變的水印編碼器和解碼器,學習如何在不損害結構質量的前提下將水印資訊嵌入到蛋白質結構中。

為此,訓練過程使用兩個損失函式進行最佳化:一是訊息恢復損失,確保能從嵌入的結構中準確提取水印資訊;二是結構一致性損失,確保嵌入水印後的蛋白質結構與原始結構之間的偏差最小。

圖片

圖示:FoldMark 的預訓練階段。(來源:論文)

在第二階段,提出水印 LoRA(Low-Rank Adaptation)方法,將給定的水印程式碼靈活地編碼,併合併到原始模型權重中,不改變或增加額外的模型架構。

具體而言,生成模型的最佳化目標有兩個:訊息檢索損失和一致性損失。訊息檢索損失確保水印能夠有效嵌入生成的結構中,併成功提取出嵌入的水印程式碼;一致性損失則確保水印的加入對蛋白質結構的整體質量影響儘可能小。

圖片

圖示:FoldMark 的微調階段。(來源:論文)

水印模型效能評估

在實驗中,FoldMark 被用於多種生成模型的水印嵌入任務。研究團隊使用不同的水印位長度(例如 4 位、8 位、16 位和 32 位)來評估水印嵌入和恢復的效果。

圖片

圖示:水印無條件蛋白質結構生成模型的水印生成效能比較。(來源:論文)

實驗結果表明,FoldMark 在 16 位水印程式碼下,能夠以接近 100% 的準確率從編碼的蛋白質結構中恢復出水印資訊。

而且,與影像領域的方法(如 WaDiff 和 AquaLoRA)相比,FoldMark 在大多數情況下表現出一致的改進效果,並且可以成功處理 16 位的水印程式碼。

圖片

圖示:蛋白質結構預測模型的水印效能比較。(來源:論文)

應用場景介紹

FoldMark 的主要應用場景包括版權保護檢測和使用者身份識別。版權保護檢測的目的是透過提取蛋白質結構中的水印資訊,確認結構的生成歸屬,以證明結構是由特定模型生成的。

在使用者身份識別方面,FoldMark 可以為每個使用者分配唯一的水印,從而透過從生成的結構中提取水印,追蹤到生成者的身份。這一應用不僅能夠檢測生成內容,還可實現追責,保護不同使用者的版權。

應對後處理和自適應攻擊的能力

在實際應用中,惡意使用者可能對帶有水印的蛋白質結構進行後處理或設計自適應攻擊,以規避 FoldMark 的保護。研究人員考慮了三種常見的蛋白質結構後處理方法(如裁剪、旋轉+翻譯、新增噪聲)和兩種自適應攻擊(如微調攻擊、多資訊攻擊)。

圖片

圖示:FoldMark 在後處理和自適應攻擊下的表現。蛋白質後處理包括結構裁剪(保留整個序列的 50%)、隨機平移和旋轉整個結構,以及向座標新增高斯噪聲(強度 0.2)。(來源:論文)

結果顯示,FoldMark 能夠抵抗這些後處理和攻擊,因為水印資訊被嵌入到每個殘基中,且解碼器對 SE(3) 變化不敏感。

圖片

圖示:FoldMark 使用者識別準確率的表現。(來源:論文)

侷限性與未來展望

儘管如此,FoldMark 仍然存在諸多侷限性,需要在未來的研究來解決。

比如,該方法在處理顯著的結構修改時,如大規模的結構域移動或極端構象變化時,表現不佳,因為水印的韌性有限。目前,水印的預訓練過程與蛋白質生成模型的微調是分開的,未來在構建端到端水印管道方面的改進可能增強對這些結構變化的穩健性。

此外,高階使用者可能不僅將蛋白質生成模型用於 de novo 設計,還用於結構編輯、功能最佳化或基序支架。這裡的水印技術尚未充分應對這些複雜的修改,限制了其在更高階應用場景中的有效性。

並且,隨著生成的蛋白質複雜性或長度的增加,水印檢索準確性出現了一定的效能下降。研究團隊計劃在未來的工作中透過最佳化他們的方法,以有效應對更大和更復雜的蛋白質結構來解決這一侷限性。

結語

總之,該研究證明了 FoldMark 在蛋白質生成模型及其輸出中嵌入水印的可行性。這種兩階段方法成功地保留了蛋白質結構的質量,同時嵌入了使用者特定的資訊以進行版權認證和跟蹤。

對各種蛋白質結構預測和設計模型進行的大量實驗證實了 FoldMark 的有效性和對後處理和自適應攻擊的穩健性,同時對原始結構質量的影響極小。

這為解決生成式人工智慧在蛋白質設計應用中的版權保護等倫理問題提供了潛在方案。

相關內容: https://x.com/BiologyAIDaily/status/1850175194884882799

程式碼地址: https://github.com/zaixizhang/FoldMark

相關文章