「AI+物理先驗知識」,浙大、中國科學院通用蛋白質-配體相互作用評分方法登Nature子刊

ScienceAI發表於2024-06-13

圖片

編輯 | X

蛋白質就像是身體中的精密鎖具,而藥物分子則是鑰匙,只有完美契合的鑰匙才能解鎖治療之門。科學家們一直在尋找高效的方法來預測這些「鑰匙」和「鎖」之間的匹配度,即蛋白質-配體相互作用。

然而,傳統的資料驅動方法往往容易陷入「死記硬背」,記住配體和蛋白質訓練資料,而不是真正學習它們之間的相互作用。

近日,浙江大學和中國科學院研究團隊,提出了一種名為 EquiScore 的新型評分方法,利用異構圖神經網路整合物理先驗知識,並在等變幾何空間中表徵蛋白質-配體相互作用。

EquiScore 基於一個新資料集進行訓練,該資料集採用多種資料增強策略和嚴格的冗餘消除方案構建。

在兩個大型外部測試集上,與其他 21 種方法相比,EquiScore 始終名列前茅。當 EquiScore 與不同的對接方法一起使用時,它可以有效增強這些對接方法的篩選能力。EquiScore 在一系列結構類似物的活性排序任務中也表現出色,表明其具有指導先導化合物最佳化的潛力。

最後,研究了 EquiScore 的不同可解釋性水平,這可能為基於結構的藥物設計提供更多見解。

該研究以「Generic protein–ligand interaction scoring by integrating physical prior knowledge and data augmentation modelling」為題,於 2024 年 6 月 6 日釋出在《Nature Machine Intelligence》上。

圖片

論文連結:https://www.nature.com/articles/s42256-024-00849-z

基於機器學習的評分方法

人類基因組計劃之後,將基因組學的新知識轉化為新藥物的挑戰也隨之而來。近年來,蛋白質摺疊演算法不斷取得突破,結構生物學領域取得了長足進步。而一個雄心勃勃的專案正嘗試為人體內的所有蛋白質尋找匹配的藥物或探針。儘管該領域已經取得了實質性進展,但在實際應用場景中開發更準確率的評分方法仍然是一項懸而未決的挑戰。

隨著實驗蛋白質-配體相互作用資料的爆炸式增長,基於機器學習的評分方法取得了實質性進展。

機器學習模型容量的不斷增加使它們能夠記住整個訓練資料集。同時,訓練資料和測試資料之間的資料洩漏問題導致對這些模型能力的評價過於樂觀

除了資料集的質量之外,影響基於機器學習的評分方法效能的另一個關鍵因素是有效地整合有關配體-蛋白質相互作用的物理先驗資訊。

EquiScore 的架構

該研究主要從兩個方面來提高深度學習評分方法對未知靶標的泛化能力。

首先,研究人員使用多種資料增強策略構建了一個名為 PDBscreen 的新資料集。例如使用接近天然的配體結合姿勢擴大正樣本量,使用生成的高度欺騙性誘餌擴大負樣本量。

其次,透過引入新型別的節點和邊以及資訊感知注意機制,提出了一種可以整合物理分子間相互作用的先驗資訊的異構圖。

圖片

圖示:構建 PDBscreen 資料集的管道。(來源:論文)

EquiScore 是一個二元分類模型,透過輸入由蛋白質口袋區域和配體構建的異構圖來評估蛋白質與配體之間的結合潛力。

圖片
圖片
圖示:EquiScore 整體架構。

在第一步中,研究人員設計了一個異構圖構建方案。除了將現有原子抽象為節點之外,還根據專家先驗知識為每個芳香環新增一個虛擬節點,以更好地表示芳香體系。為了構建邊,在節點之間建立了基於幾何距離的邊 (Egeometric) 和透過化學鍵建立基於結構的邊 (Estructural)。

研究人員還在 Estructural 中新增了一類基於 ProLIF 計算的蛋白質-配體經驗相互作用成分 (IFP) 的邊,以包含有關分子間相互作用的先驗物理知識。在第二步中,使用嵌入層來獲得異構圖上每種型別的邊和節點的潛在表示。該方案可以引入其他具有明確物理意義的新節點和邊,並且可以與後續的表示學習模組無縫整合。

為了充分利用來自不同節點和邊的資訊的歸納偏差,同時確保模型的等方差,EquiScore 層由三個子模組組成:資訊感知注意模組、節點更新模組和邊更新模組。

資訊感知注意模組可以解釋來自不同資訊的相互作用,包括(1)等變幾何資訊、(2)化學結構資訊和(3)蛋白質-配體經驗相互作用成分。

模型效能評估

研究人員評估了生成的 EquiScore 模型的效能。

在虛擬篩選(VS)場景中,與兩個外部資料集 DEKOIS2.0 和 DUD-E 上未見蛋白質的 21 種現有評分方法相比,EquiScore 始終取得了頂級排名。

圖片

圖示:22 種評分方法在 DEKOIS2.0 上的評估。(來源:論文)

圖片

圖示:22 種 DUD-E 評分方法在 AUROC、BEDROC 和 EF 方面的評估。(來源:論文)

在先導化合物最佳化場景中,EquiScore 僅在八種不同方法中與 FEP+ 相比表現出較低的排名能力。考慮到 FEP+ 計算所需的計算費用明顯更高,EquiScore 展示了速度和準確性更均衡的優勢。

圖片

圖示:EquiScore 在 DEKOIS2.0 上對不同對接方法產生的對接姿勢進行重新評分的效能比較。(來源:論文)

此外,研究發現,當應用於不同對接方法生成的姿勢時,EquiScore 表現出強大的重新評分能力,並且使用 EquiScore 重新評分可以提高所有評估方法的 VS 效能。

圖片

圖示:透過視覺化注意力分佈來解釋 EquiScore。(來源:論文)

最後,研究人員分析了模型的可解釋性,發現該模型可以捕捉關鍵的分子間相互作用,證明了模型的合理性併為合理的藥物設計提供了有用的線索。

對蛋白質-配體相互作用的穩健預測將提供寶貴的機會來了解蛋白質的生物學並確定它們對未來藥物治療的影響。EquiScore 將有助於更好地瞭解人類健康和疾病,並促進新藥的發現。

相關文章