獲ICLR 2024傑出論文獎,97.47%體外成功率,蛋白質設計新演算法

ScienceAI發表於2024-05-10

圖片

編輯 | 紫羅

在今年的 ICLR 會議上,共評選出 5 篇傑出論文獎以及 11 篇榮譽提名。

紐約大學和基因泰克(Genentech)合作發表的一篇關於蛋白質設計的研究論文獲得傑出論文獎。

這篇論文解決了基於序列的抗體設計問題,這是蛋白質序列生成模型的一個及時而重要的應用。

為此,研究人員引入了一種創新而有效的新建模方法——離散「步行-跳躍」取樣(Discrete Walk-Jump Sampling,dWJS)演算法,用來專門針對處理離散蛋白質序列資料的問題。除了在計算機上驗證該方法之外,還進行了廣泛的溼實驗室實驗,來測量體外抗體結合親和力,證明了其生成方法的有效性。

97-100% 的生成樣本能夠成功表達和純化,並且與已知的功能性抗體相比,70% 的功能性設計在第一輪溼室實驗驗證中顯示出相同或更高的結合親和力。

圖片

論文連結:https://openreview.net/forum?id=zMPHKOmQNb

基於序列的抗體設計

離散序列生成對基於梯度的生成模型提出了許多挑戰。生成模型必須具有足夠的表達能力,能夠很好地捕獲底層資料分佈,同時還具有新穎、獨特、多樣化的可控輸出,並尊重問題空間的約束。

基於能量的模型(EBM)雖然易於計算能量,但難以訓練和取樣。基於分數匹配的去噪目標和擴散模型雖然克服了這些問題,但這些問題要麼是對能量梯度進行建模,要麼僅提供對可能性的經驗下限的訪問。

蛋白質設計是離散序列生成問題的一個例項,其中的挑戰是在尺寸為 20^L 的大型、離散且稀疏的功能空間中為長度為 L 的蛋白質找到有用的蛋白質。

將 ab initio 與 de novo 蛋白質發現區分開

在此,研究人員考慮抗體生成建模的具體問題,抗體是一類具有高度保守結構的蛋白質。除了上述品質之外,由於治療性抗體的資料集相對較小,抗體的生成模型必須具有樣本效率。抗體由保守結構域和高熵可變區域組成,因此利用預訓練的蛋白質語言模型中的進化資訊並不是一個直接的解決方案。

將從頭開始的蛋白質發現和設計(在給定一些訓練樣本的情況下產生新穎的功能性蛋白質)與從頭設計(在沒有起始材料的情況下生成新穎的蛋白質)區分開來,這是該研究的重點。

現有的自迴歸蛋白質設計方法效率低下,可能會出現錯誤累積和高推理延遲,而當前的非自迴歸擴散模型同樣效率低下,並且對於實際發現和設計任務的最佳化很差。

研究人員的目標是為離散資料發明一種高效的、非自迴歸的生成建模正規化,以生成高質量的新穎樣本。

用於蛋白質發現的新演算法:dWJS

為此,研究人員引入平滑離散取樣(Smoothed Discrete Sampling,SDS),一種用於從離散生成模型進行訓練和取樣的新形式。

圖片

圖示:從 dWJS 的單個馬爾可夫鏈蒙特卡羅取樣執行中選擇的樣本。(來源:論文)

研究人員提出了一種新穎的演算法,即離散「步行-跳躍」取樣(Discrete Walk-Jump Sampling,dWJS),這是一種基於神經經驗貝葉斯(NEB)形式主義的方法,解決了離散 EBM 和擴散模型的脆弱性,並在此過程中,為蛋白質發現和設計提供了一個強大而通用的框架。

圖片

圖示:dWJS。(來源:論文)

此外,還設計了一個稱為分佈一致性評分 (Distributional Conformity Score,DCS) 的指標,這是蛋白質樣品質量的簡單標量評分。研究結果拯救了用於離散分佈建模的 EBM,質疑蛋白質發現中是否需要具有多個噪聲尺度的擴散模型。

圖片

圖示:使用 dWJS 取樣的計算機設計與驗證樣本的參考集進行比較。(來源:論文)

97.47% 的體外成功率

為了證明方法的有效性,研究人員在計算機上驗證了該方法,並進行了廣泛的溼實驗室實驗來測量體外抗體結合親和力。

研究人員使用一套「抗體相似性」(ab-likeness)指標來測量生成模型的效能。

採用 dEBM 取樣的 dWJS 與驗證集屬性分佈達到了最佳一致性,並且 unique 樣本的百分比最高,而基於分數取樣的 dWJS 具有較高的分佈一致性得分、新穎性和多樣性。與一種專門為抗體設計 (IgLM) 訓練的基於 Transformer 的語言模型相比,dWJS 的取樣速度提高了 43 倍,這在生成和排序大量設計時非常有用。

圖片

圖示:相似性指標、獨特性、多樣性和分佈一致性分數。(來源:論文)

在實驗室測試的超過 277 個設計抗體序列中,有 270 個已成功表達和純化。實現了 97.47% 的體外成功率。

圖片

圖示:測量的蛋白質合成。(來源:論文)

研究人員還報告了 dWJS 基於能量的設計的體外溼實驗室驗證結果。dWJS 產生最高百分比的與靶標結合的功能性抗體。透過重新設計曲妥珠單抗的 CDR H3 環,在 HER 2 的第一輪溼室實驗驗證中達到了 70% 的結合率。這是應用於曲妥珠單抗 CDR H3 重新設計的任何抗體設計方法中報導的最高結合率。

圖片

圖示:預測和測量的抗體結合親和力。(來源:論文)

此外,該方法還展示了在單一馬爾可夫鏈蒙特卡洛(Markov chain Monte Carlo,MCMC) 鏈中訪問多種抗體蛋白質類別的能力。

總而言之,該研究提出了一個簡化的、更通用和穩健的框架,用於從基於離散能量和分數的模型進行訓練和取樣,並應用於治療分子設計。

未來,研究人員將探討該方法對其他類別的分子甚至其他資料模式(例如影像)的普遍性,以及對這裡提出的結果的理論研究。

相關文章