編輯 | 白菜葉
瞭解配體-靶標對的分子間相互作用是指導最佳化癌症藥物研究的關鍵,這可以大大減輕溼實驗室的負擔。當前計算方法存在一些缺陷,限制了它們的實際應用。
在這裡,哈爾濱工業大學的研究人員在此提出了 DrugMGR,這是一種深度多粒度藥物表示模型,能夠預測每個配體-靶標對的結合親和力和區域。
透過對配體複雜的自然機制和蛋白質高階特徵的多粒度表示學習,DrugMGR 幾乎在所有資料集上都顯著優於當前最先進的方法。並且,這是第一個同時使用圖、卷積和基於注意力的資訊分析蛋白質-配體複合物的模型。
該研究以「DrugMGR: a deep bioactive molecule binding method to identify compounds targeting proteins」為題,於 2024 年 4 月 1 日釋出在《Bioinformatics》。
藥物開發對於疾病治療至關重要,科學家們透過藥物再利用可以快速尋找治療方案,但傳統實驗方法成本高、週期長,限制了其應用。相比之下,採用計算方法識別高可信度的配體-靶標相互作用,能夠顯著縮小化合物候選範圍,揭示蛋白質-配體複合物的結合機制。
過去十年,生物活性分子資料的激增,推動了深度學習與人工智慧在研究蛋白質-配體相互作用中的應用。
然而,現有深度學習方法存在兩方面問題:一是多數模型對多粒度配體特徵的捕獲能力不足,未能充分整合原子環境、化學基因組序列等多元自然機制資訊;二是許多方法忽視了對結合區域可解釋性的構建,雖有少數借助注意力機制嘗試推斷結合位點,但關聯生物特徵不明確,不利於指導研究人員定位結合位點。
為了應對這些缺陷,哈爾濱工業大學的研究人員提出了 DrugMGR,這是一種基於深度多粒度表示的模型,可以預測配體與蛋白質靶標的結合親和力和區域。
圖示:DrugMGR 方法概述。(來源:論文)
具體來說,該團隊首先使用三個深度模組來全面編碼配體的自然機制,即,用圖注意力網路 (GAT) 來建模原子環境,用 CNN 來提取全域性化學基因組序列,並使用分子Transformer (MT) 來捕獲區域性子結構的相互影響。
研究人員還設計了一個並行 VAE 模組,透過 CNN 塊在機率編碼器中學習蛋白質的高階特徵,然後在機率解碼器中重建目標結構。
然後,配體和蛋白質的編碼表示被輸入由注意力網路組成的成對相互作用對映模組,從而學習蛋白質-配體複合物的相互作用模式。聯合成對相互作用表示由完全連線的網路解碼,用於預測生物活性分子的結合親和力。
圖示:BindingDB 資料集隨機分割和冷啟動分割的效能比較。(來源:論文)
對於結合區域預測,研究人員首先突出顯示具有與配體結合潛力的重建蛋白質的結合位點,作為原始結合區域。隨後,使用卷積運算將多粒度配體特徵與蛋白質特徵相乘。
接下來,他們將卷積結果記錄為每個配體-靶標對的響應向量,並將響應向量中具有高值的區域標記為視覺化結合區域。最後,研究人員利用這兩個區域來指導最終預測的結合區域。
與 DrugBAN(一種用於簡單識別藥物和靶標之間相互作用的二元分類器)相比,該團隊提出的 DrugMGR 可以進一步瞭解蛋白質-配體複合物的綜合結合資訊(結合親和力和結合區域),這在生物活性分子結合的實際應用中發揮著核心作用。
針對具有高度侵襲性、預後不良且缺乏有效靶向療法的三陰性乳腺癌(TNBC),該團隊利用 DrugMGR 模型從 DrugBank 資料庫中識別針對 PARP1 的潛在抑制劑和化療藥物。
篩選出的前 10 個候選化合物經 GeneCards 和 PDB 系統驗證,並透過視覺化 PARP1 與 Talazoparib(PDB ID: 4PJT)的結合區域,確認模型的有效性。
結果顯示,DrugMGR 準確預測了結合位點,表現優異,有望成為針對 PARP1 虛擬篩選的有力工具,助力生物醫藥學家篩選更優的抗腫瘤藥物組合。
論文連結:https://academic.oup.com/bioinformatics/article/40/4/btae176/7638803