準確率達0.96,從序列中預測蛋白-配體互作的物理化學約束圖神經網路

ScienceAI發表於2024-06-28

圖片

編輯 | 蘿蔔皮

在藥物研發中,確定小分子配體對蛋白質的結合親和力和功能效應至關重要。目前的計算方法可以預測這些蛋白質-配體相互作用特性,但如果沒有高解析度的蛋白質結構,通常會失去準確性,並且無法預測功能效應。

莫納什大學(Monash University)和格里菲斯大學(Griffith University)的研究人員開發了 PSICHIC(PhySIcoCHemICal graph neural network),這是一個結合物理化學約束的框架,可直接從序列資料解碼相互作用指紋(fingerprints)。這使 PSICHIC 能夠解碼蛋白質-配體相互作用背後的機制,實現最先進的準確性和可解釋性。

在沒有結構資料的相同蛋白質-配體對上進行訓練後,PSICHIC 在結合親和力預測方面與領先的基於結構的方法效能相當,甚至超過了它們。

PSICHIC 的可解釋指紋識別了參與相互作用的蛋白質殘基和配體原子,並有助於揭示蛋白質-配體相互作用的選擇性決定因素。

該研究以「Physicochemical graph neural network for learning protein–ligand interaction fingerprints from sequence data」為題,於 2024 年 6 月 17 日釋出在《Nature Machine Intelligence》。

圖片

蛋白質-配體親和力預測存在挑戰

藥物發現過程中,確定小分子配體對蛋白質的結合親和力和功能效應至關重要,因為配體與特定蛋白質的選擇性相互作用決定了藥物的預期效果。

然而,目前的計算方法雖然可以預測蛋白質-配體相互作用屬性,但在缺乏高解析度蛋白質結構的情況下,預測準確性往往會下降,並且在預測功能效應方面也存在困難。

基於序列的方法雖然成本和資源上更具優勢,比如不需要昂貴的實驗結構確定過程,但這些方法常常面臨模式匹配中的過度自由度問題,容易導致過擬合和有限的泛化能力,從而造成與基於結構或複合物的方法之間的效能差距。

物理化學圖神經網路

莫納什大學和格里菲斯大學的研究團隊開發了 PSICHIC,即物理化學圖神經網路,這是一種遵循物理化學原理從序列資料直接解碼蛋白質-配體相互作用指紋的方法。與以前基於序列的模型不同,PSICHIC 獨特地結合了物理化學約束,以實現最先進的準確性和可解釋性。

作為一種基於二維序列的方法,PSICHIC 透過應用聚類演算法生成並在二維圖上施加這些約束,從而使 PSICHIC 能夠主要適應訓練期間決定蛋白質-配體相互作用的合理基本模式。

圖片

圖示:PSICHIC 概述。(來源:論文)

效能驗證與比較

在沒有結構資料的相同蛋白質-配體對上進行訓練後,PSICHIC 在結合親和力預測方面與最先進的基於結構和基於複合物的方法相媲美甚至超越了它們。

在 PDBBind v2016 和 PDBBind v2020 資料集上的實驗結果表明,PSICHIC在多項指標上均優於其他基於序列的方法,如 TransCPI、MolTrans 和 DrugBAN 等。

圖片

圖示:PDBBind v2016 和 PDBBind v2020 基準測試中蛋白質-配體結合親和力預測的效能統計摘要。(來源:論文)

具體而言,PSICHIC 顯示了更低的預測誤差和更高的相關性指數,尤其在預測準確性和泛化能力方面表現突出。PSICHIC 在功能效應預測方面實現了高達 0.96 的準確率

此外,PSICHIC 在結合位點和關鍵配體功能基團的識別方面表現出色。在多個蛋白質-配體複雜結構(如 PDB 6K1S和 6OXV)的分析中,PSICHIC 能夠準確定位重要的結合殘基和配體功能基團,這驗證了其在序列資料中直接解碼蛋白質-配體相互作用模式的能力。這一能力特別體現在其透過序列資料預測蛋白質-配體結合位點和關鍵殘基上。

圖片

圖示:利用互動指紋進行虛擬篩選。(來源:論文)

有趣的是,PSICHIC 的可解釋指紋表明,它獲得了僅從序列資料解碼蛋白質-配體相互作用的潛在機制、識別結合位點蛋白質殘基和所涉及的配體原子的能力,即使僅在具有結合親和力標籤而沒有相互作用資訊的序列資料上進行訓練也是如此。

圖片

圖示:利用相互作用指紋進行選擇性分析。(來源:論文)

研究人員利用 PSICHIC 成功篩選出一種新型腺苷 A1 受體激動劑(與已知最接近的 A1R 激動劑的 Tanimoto 相似度為 0.2),並分析了腺苷受體亞型之間的配體選擇性。

價值體現

蛋白質-配體相互作用指紋描述了配體和蛋白質殘基之間發生的特定相互作用的特徵。傳統上,這些指紋來自 3D 蛋白質-配體複合物,這是一個昂貴的過程,本文顯示其對結構解析度質量很敏感。

相比之下,PSICHIC 僅利用序列資料,為獲取可解釋的相互作用指紋提供了一種獨特的方法。透過納入約束,PSICHIC 展現出新興能力,使其能夠揭示蛋白質-配體相互作用機制並有效預測相互作用特性。PSYCHIC 消除了對 3D 資料的需求,為在大規模序列資料庫上進行穩健學習鋪平了道路。

作為概念驗證,該團隊證明了 PSICHIC 可以有效篩選候選藥物並進行選擇性分析。PSICHIC 只需要序列資料即可執行,有潛力成為藥物發現中普遍有用的工具。研究人員期待它在從頭配體設計中發揮作用,PSICHIC 的可解釋指紋可以整合到其中以最佳化分子結構。

未來展望

目前,PSICHIC 僅限於分析單個蛋白質的蛋白質-配體相互作用。未來計劃包括將其分析擴充套件到蛋白質複合物,例如與異三聚體 G 蛋白複合的 GPCR,這可以促進直接從序列資料全面研究蛋白質-配體動力學。

此外,PSICHIC 從序列資料中獲得的強大學習能力為探索變構調節等複雜相互作用鋪平了道路,有助於理解變構配體如何調節蛋白質靶標內的正構配體。

該團隊已將他們的資料、程式碼和最佳化模型提供給更廣泛的科學界。PSICHIC 已在各個應用領域中證明其穩健性和有效性,在未來發展中具有廣闊的潛力,並有望對虛擬化合物篩選領域和創新小分子療法的設計產生重大影響。

論文連結:https://www.nature.com/articles/s42256-024-00847-1

相關報導:https://phys.org/news/2024-06-ai-tool-rapid-effective-drug.html

相關文章