從頭設計抗體,騰訊、北大團隊預訓練大語言模型登Nature子刊

ScienceAI發表於2024-08-16

圖片編輯 | KX

AI 技術在輔助抗體設計方面取得了巨大進步。然而,抗體設計仍然嚴重依賴於從血清中分離抗原特異性抗體,這是一個資源密集且耗時的過程。

為了解決這個問題,騰訊 AI Lab、北京大學深圳研究生院和西京消化病醫院研究團隊提出了一種預訓練抗體生成大語言模型 (PALM-H3),用於從頭生成具有所需抗原結合特異性的人工抗體 CDRH3,減少對天然抗體的依賴。

此外,還設計了一個高精度的抗原-抗體結合預測模型 A2binder,將抗原表位序列與抗體序列配對,從而預測結合特異性和親和力。

總之,該研究建立了一個用於抗體生成和評估的人工智慧框架,這有可能顯著加速抗體藥物的開發。

相關研究以「De novo generation of SARS-CoV-2 antibody CDRH3 with a pre-trained generative large language model」為題,於 8 月 10 日釋出在《Nature Communications》上。

圖片

論文連結:https://www.nature.com/articles/s41467-024-50903-y

抗體藥物,又稱單克隆抗體,在生物治療中發揮著至關重要的作用。透過模仿免疫系統的作用,這些藥物可以選擇性地針對病毒和癌細胞等致病因子。與傳統治療方法相比,抗體藥物是一種更具體、更有效的方法。抗體藥物在治療多種疾病方面已顯示出積極的效果。

開發抗體藥物是一個複雜的過程,包括從動物源中分離抗體,使其人性化,並最佳化其親和力。但抗體藥物的開發仍然嚴重依賴於天然抗體。

蛋白質的序列資料可以看作是一種語言,因此自然語言處理(NLP)領域的大規模預訓練模型已被用來學習蛋白質的表徵模式。當前已經開發了多種蛋白質語言模型。然而,由於抗體的多樣性高和可用的抗原抗體配對資料稀缺,生成對特定抗原表位具有高親和力的抗體仍然是一項具有挑戰性的任務。

為了應對上述挑戰,騰訊 AI Lab 團隊提出了預訓練抗體生成大型語言模型 PALM-H3,用於最佳化和生成重鏈互補決定區 3 (CDRH3),該區域在抗體的特異性和多樣性中起著至關重要的作用。

為了評估 PALM-H3 產生的抗體對抗原的親和力,研究人員結合使用了抗原抗體對接和基於 AI 的方法。

研究人員還開發了用於評估抗體-抗原親和力的 A2binder。A2binder 能夠實現準確且可推廣的親和力預測,即使對於未知抗原也是如此。

PALM-H3 和 A2Binder 的框架

PALM-H3 和 A2binder 的工作流程和模型框架如下圖所示。

圖片

圖示:PALM-H3 和 A2binder 工作流程概述。(來源:論文)

PALM-H3 的目的是生成抗體中的從頭 CDRH3 序列。CDRH3 區域在決定抗體對特定抗原序列的結合特異性方面起著最重要的作用。PALM-H3 是一個類似 transformer 的模型,它使用基於 ESM2 的抗原模型作為編碼器,使用抗體 Roformer 作為解碼器。研究還構建了 A2binder 來預測人工生成的抗體的結合親和力。

PALM-H3 和 A2binder 的構建包括三個步驟:首先,研究人員分別在未配對的抗體重鏈和輕鏈序列上預訓練兩個 Roformer 模型。然後,基於預訓練的 ESM2、抗體重鏈 Roformer 和抗體輕鏈 Roformer 構建 A2binder,並使用配對親和力資料對其進行訓練。最後,使用預訓練的 ESM2 和抗體重鏈 Roformer 構建 PALM-H3,並在配對抗原-CDRH3 資料上對其進行訓練,以從頭生成 CDRH3。

A2binder 可以準確預測抗原抗體結合機率、親和力

透過將 A2binder 預測親和力的能力與幾種基線方法進行比較來評估其效能。

A2binder 在親和力資料集上表現出色,部分原因在於抗體序列的預訓練,這使得 A2binder 能夠學習這些序列中存在的獨特模式。

圖片

圖示:預訓練和未訓練模型的潛在能力比較以及 A2Binder 與基線方法在抗體-抗原結合特異性預測方面的效能比較。(來源:論文)

結果表明,在所有抗原抗體親和力預測資料集上,A2binder 的表現均優於基線模型 ESM-F(後者具有相同的框架,但預訓練模型被 ESM2 取代),這表明使用抗體序列進行預訓練可能對相關的下游任務有益。

為了評估模型在預測親和力值方面的表現,研究人員還利用了兩個包含親和力值標籤的資料集 14H 和 14L。

圖片

A2binder 在 Pearson 相關性和 Spearman 相關性指標上均優於所有基線模型。A2binder 在 14H 資料集上實現了 0.642 的 Pearson 相關性(提高了 3%),在 14L 資料集上實現了 0.683(提高了 1%)。

然而,與其他資料集相比,A2binder 和其他基線模型在 14H 和 14L 資料集上的效能略有下降。這一觀察結果與以前的研究一致。

PALM-H3 在生成高結合機率抗體方面表現優異

研究人員探索了 PALM-H3 產生的抗體與天然抗體之間的差異。發現它們的序列存在顯著差異,但產生的抗體的結合機率並沒有受到這些差異的顯著影響。同時,它們的結構差異確實導致結合親和力的下降。這些結果與之前關於抗體庫網路分析和功能性蛋白質序列生成的研究一致。

圖片

圖示:與基線方法的效能比較以及人工抗體和天然抗體的相似性分析。(來源:論文)

總體而言,結果表明,儘管與天然抗體不同,但 PALM-H3 能夠生成具有高結合親和力的多種抗體序列。

此外,研究人員透過 ClusPro 和 SnugDock 驗證了 PALM-H3 的效能。PALM-H3 能夠生成針對 SARS-CoV-2 HR2 區穩定肽的抗體 CDRH3 序列。它生成了新的 CDRH3 序列,並且驗證了生成的序列 GRREAAWALA 與天然 CDHR3 序列 GKAAGTFDS 相比,對抗原穩定肽的靶向性有所改善。

圖片

圖示:A2binder 預測的選定高親和力人工抗體與針對 SARS-CoV-2 刺突蛋白的天然抗體在不同變體和計算結構生成方法之間的介面能比較。(來源:論文)

此外,PALM-H3 能夠生成對新出現的 SARS-CoV-2 變體 XBB 具有更高親和力的抗體 CDRH3 序列。生成的序列 AKDSRTSPLRLDYS 對 XBB 的親和力比其來源 ASEVLDNLRDGYNF 更強。

此外,PALM-H3 不僅克服了傳統順序突變策略面臨的區域性最優陷阱,而且與 E-EVO 方法相比,它還能產生具有更高抗原結合親和力的抗體。這凸顯了 PALM-H3 在抗體設計方面的優勢,能夠更有效地探索序列空間並生成針對特定表位的高親和力結合物。

體外實驗

此外,研究人員還進行了體外試驗,包括蛋白質印跡、表面等離子體共振分析和假病毒中和試驗,為 PALM-H3 設計抗體的有效性提供了關鍵驗證。

圖片

圖示:人工和天然抗體的結合親和力和中和性的體外試驗。(來源:論文)

PALM-H3 產生的針對 SARS-CoV-2 野生型、Alpha、Delta 和 XBB 變體刺突蛋白的兩種抗體在這些試驗中都實現了比天然抗體更高的結合親和力和中和效力。這些溼實驗室實驗的有力經驗結果補充了計算預測和分析,驗證了 PALM-H3 和 A2binder 在生成和選擇對已知和新抗原具有高特異性和親和力的強效抗體方面的能力。

總之,提出的 PALM-H3 整合了大規模抗體預訓練的能力和全域性特徵融合的有效性,從而具有卓越的親和力預測效能和設計高親和力抗體的能力。此外,直接序列生成和可解釋的權重視覺化使其成為設計高親和力抗體的有效且可解釋的工具。

相關文章