
編輯 | 白菜葉
機器學習為快速準確地預測結合親和力提供了巨大的希望。然而,目前的模型缺乏穩健的評估,無法完成(命中到)先導化合物最佳化中遇到的任務,例如對一系列同類配體的結合親和力進行排序,從而限制了它們在藥物發現中的應用。
牛津大學的研究團隊首先提出了一種新的基於注意力的圖神經網路模型 AEV-PLIG(原子環境向量-蛋白質配體相互作用圖),以解決這些問題。其次,他們提出了一種新的、更真實的分佈外測試集(out-of-distribution test set),稱為 OOD 測試。
研究人員在這個包含 CASF-2016 和用於自由能擾動 (FEP) 計算的測試集上,對該模型進行基準測試,突顯了 AEV-PLIG 的競爭效能,同時對具有嚴格基於物理的方法的機器學習模型提供了現實的評估。
團隊還展示瞭如何利用增強資料(使用基於模板的建模或分子對接生成)來顯著改善結合親和力預測相關性和 FEP 基準上的排名。
該研究以「Narrowing the gap between machine learning scoring functions and free energy perturbation using augmented data」為題,於 2025 年 2 月 8 日釋出在《Communications Chemistry》。

預測蛋白質與配體結合時自由能的變化是計算小分子藥物發現的基石。它在命中識別過程中至關重要,在命中識別過程中,人們旨在識別對目標具有高親和力的結合物,以及在命中到先導和先導最佳化過程中,必須最佳化結合親和力以及與安全性和生物功效相關的許多其他特性。
機器學習演算法和架構可以預測這些特性,但是由於缺乏相關資料,其應用受的了限制。基於結構的方法需要準確的結合親和力測量以及以足夠解析度解析蛋白質-配體複合物(尤其是結合口袋)的相應三維 (3D) 結構。
增加訓練資料的數量和多樣性的一種策略是使用資料增強,其中生成合成資料來模擬真實世界的觀察或透過修改現有的實驗確定的示例。這類方法已被證明可用於計算機視覺和自然語言處理應用。
然而,由於一些固有的複雜性和物理化學限制,從頭生成有意義的生物和化學資料可能具有挑戰性。
新策略
在最新研究中,牛津大學的研究人員提出了多種策略來增強機器學習(ML)評分功能的適用性並對其效能提供更現實的評估,特別關注藥物發現應用。
他們提出了一種新穎的結合親和力預測方法 AEV-PLIG,將原子環境向量 (AEV) 與蛋白質-配體相互作用圖 (PLIG) 相結合,採用注意力 GNN 架構來捕捉決定結合親和力的複雜相互作用。

研究人員將 AEV-PLIG 與 RFScore、Pafnucy、OnionNet-2、PointVS、SIGN、AEScore 一起進行了評估,使用了多種旨在評估 OOD 資料(OOD 測試)和藥物相關係統(FEP 基準)或懲罰記憶(0 配體偏差)的效能的基準,結果顯示其效能明顯差於廣泛使用的評分函式基準 CASF-2016。
在比較不同的 ML 模型時,AEV-PLIG 表現良好,但沒有一個模型在所有基準測試中取得明顯更好的效能,這凸顯了需要一組多樣化的測試用例來評估新模型、特性和架構。

圖示:AEV-PLIG 模型在 FEP 基準測試中的效能。(來源:論文)
這些策略共同縮小了與 FEP 計算的效能差距(FEP+ 在 FEP 基準上實現了加權平均 PCC 和 Kendall 的 τ 0.68 和 0.49),同時速度提高了約 400,000 倍。
這些測試集最初設計用於對 FEP 的效能進行基準測試和驗證,它們不僅為 CADD 應用提供了更真實的預測準確性指示,而且還可以直接比較當前基於 ML 和 MD 的方法。

鑑於生化領域普遍存在資料稀缺的問題,研究人員探索了使用增強資料,透過對實驗結合資料進行訓練的模型,但使用基於模板的比對或對接來建模 3D 蛋白質-配體結構。
事實證明,這種資料增強策略是一種有效的方法,可以顯著提高 AEV-PLIG 在藥物發現系統中的排名能力,其中透過引入小的結構修改來串聯設計化合物,旨在增加它們對特定目標的結合親和力。
研究人員表示,額外的增強資料可以提高未來的效能;鑑於最近引入了精確的(蛋白質-配體)結構預測模型,例如 AlphaFold 3、Umol 和 NeuralPlexer,這些資料很快就會隨時可用。
結語
總而言之,AEV-PLIG 在各種基準測試中始終表現出與各種其他基於 ML 的方法相當或更好的效能。使用增強資料進行訓練還提供了一種非常有效的方法,可以顯著提高藥物發現中經常遇到的同類系列的預測相關性和排名。
此外,AEV-PLIG 比 FEP 快幾個數量級,需要的每個系統準備最少,並且產生絕對結合親和力而不是相對自由能差異。
這項研究強調了捕捉蛋白質-配體相互作用的新特徵化的潛力、對更強大基準的需求,以及增強資料在訓練基於 ML 的評分函式以實現快速準確的結合親和力預測的新興作用。
論文連結:https://www.nature.com/articles/s42004-025-01428-y