提高抗體與其靶抗原的結合親和力是抗體療法開發中的關鍵任務。
復旦大學與百奧幾何(BioGeometry)團隊聯合推出了一種可預訓練的幾何圖神經網路 GearBind,展示了其在抗體親和力成熟中的潛力。
透過多關係圖構建、幾何訊息傳遞和大規模未標記蛋白質資料的預訓練,GearBind 在多個測試集上的表現優於現有方法。
研究人員基於 GearBind 推匯出一個強大的整合模型,成功用於增強兩種不同抗體的結合能力,實驗資料顯示設計的抗體突變體顯著提升了效能。
該研究以「Pretrainable geometric graph neural network for antibody affinity maturation」為題,於 2024 年 9 月 6 日釋出在《Nature Communications》。
抗體在免疫系統中具有關鍵作用,並因其高親和力的特異性結合能力,被廣泛用於診斷和治療。
但是,體外抗體親和力成熟過程耗時且成本高,需要構建突變庫和利用展示技術篩選,整個過程通常需要 2-3 個月或更長時間才能完成。同時,由於抗體互補決定區內的突變組合數量巨大,純生物實驗方法難以覆蓋所有可能性。
雖然分子動力學方法較為準確,但速度較慢,難以篩選大量突變。近年來,深度學習方法被引入解決親和力預測問題,但由於資料集規模有限,模型的準確性和可靠性仍面臨挑戰。
多級幾何資訊傳遞模擬蛋白質相互作用
為了應對這些挑戰,復旦大學、百奧幾何的研究人員引入了 GearBind,這是一種可預訓練的深度神經網路,利用多級幾何資訊傳遞來模擬細微的蛋白質-蛋白質相互作用。
該團隊在大規模蛋白質結構資料集上使用對比預訓練技術,將重要的結構見解納入模型。研究人員進行了大量計算機實驗來評估模型的效能。GearBind 的技術優勢可以概括如下:
(1)在圖構建階段,在介面上的所有重原子上構建多關係圖。定義的關係涵蓋了順序鄰近和空間鄰近。將全原子圖替換為僅主幹原子圖,或將多關係圖替換為簡單的 kNN 圖都會導致嚴重的效能下降。
(2)在特徵提取階段,採用多級訊息傳遞方案來全面瞭解蛋白質介面上覆雜的相互作用。
(3)提出了一種基於對比學習的預訓練演算法,利用 CATH 中豐富的未標記單鏈蛋白質結構,將側鏈扭轉角知識提取到模型中,進一步提升模型效能。
GearBind 的強大效能
研究人員用兩個現實世界的抗體親和力成熟專案檢驗了他們基於 GearBind 的管線。
結果顯示,僅合成和測試 20 種候選抗體後,抗體 CR3022 與 Omicron SARS-CoV-2 變體刺突 (S) 蛋白的結合率就透過酶聯免疫吸附試驗 (ELISA) 測量增加了 17 倍,透過生物層干涉法 (BLI) 測量增加了 6.1 倍。
圖示:對 SKEMPI 和 HER2 結合劑測試集進行計算機模擬評估。(來源:論文)
所有設計的抗體均保持或增加了與 SARS-CoV-2 Delta 變體和 SARS-CoV 的受體結合域 (RBD) 的結合。
在測試了 12 種候選抗體後,透過 ELISA 測量,全人單域抗體(UdAb)與癌胚抗原 5T4 的結合增加了高達 5.6 倍,透過 BLI 測量,增加了高達 2.1 倍。
圖示:最佳化的 CR3022 和抗 5T4 UdAb 的結構分析。(來源:論文)
簡而言之,GearBind 被證明是一種高效且強大的工具,可用於設計具有增強結合親和力的抗體。根據 GearBind 流程識別出的最佳突變體的分子動力學模擬,研究人員觀察到他們的設計透過建立新的相互作用或加強現有的接觸(尤其是氫鍵)來增強結合親和力。這讓研究人員得以瞭解 GearBind 如何從資料中學習並設計出增加結合親和力的突變體。
評估其他方法帶來新論點
雖然這項研究主要關注基於結構的方法,但是對於其他團隊已經探索了的純基於序列的親和力成熟模型,研究人員也進行了評估。他們對 SKEMPI 上的 ESM-1b 和 ESM-1v 模型的評估得出了負的 SpearmanR 值,這暗示大規模蛋白質語言模型的零樣本預測不是對蛋白質複合物的結合親和力進行排序的普遍可靠方法。
圖示:透過 per-PDB 評估 SKEMPI 資料集上的模型穩健性。(來源:論文)
這個結果是合理的,因為蛋白質語言模型所模擬的肽序列的「適應性」並不一定意味著與所有其他生物分子具有強結合力。例如,SARS-CoV-2 刺突蛋白適應度的提高可能涉及對現有中和抗體的結合親和力降低。
另一個論點是,結構資訊在構建準確可靠的蛋白質-蛋白質相互作用演算法中起著關鍵作用。
展望未來,GearBind 的潛在應用不僅限於蛋白質-蛋白質結合最佳化。該模型可輕鬆適應解決蛋白質-肽和蛋白質-配體對接挑戰,從而為其在微型結合劑和酶設計中的應用開闢了可能性。
侷限性與未來方向
儘管 GearBind 方法前景樂觀,但仍有侷限性。
首先,準確的複合物結構是基於 ΔΔGbind 預測的前提,而這在抗體-抗原對中並不容易。可以透過同源建模或直接從序列預測複合物結構來應對。
其次,依賴外部工具生成突變結構增加了時間成本,未來可發展端到端模型,並考慮氨基酸的插入和缺失。改進預訓練策略和模型設計也將提高模型的泛化能力。
總而言之,研究人員相信該工作朝著建立可靠、強大和高效的計算機親和力成熟流程邁出了堅實的一步,這將為研究和藥物發現應用帶來巨大的機會。
論文連結:https://www.nature.com/articles/s41467-024-51563-8