100%化學有效,高度類似藥物,川大開發資料和知識雙驅動的AI分子生成框架

ScienceAI發表於2024-03-25

100%化學有效,高度類似藥物,川大開發資料和知識雙驅動的AI分子生成框架

編輯 | 蘿蔔皮

基於深度學習的分子生成在許多領域都有廣泛的應用,特別是藥物發現。然而,目前的深度生成模型大多數是基於配體的,在分子生成過程中沒有考慮化學知識,往往導致成功率相對較低。

四川大學的研究團隊提出了一種基於結構的分子生成框架,稱為 PocketFlow;該框架明確考慮了化學知識,可在蛋白質結合袋內生成新型配體分子,用於基於結構的從頭藥物設計。

在各種計算評估中,PocketFlow 表現出了最先進的效能,生成的分子具有 100% 化學有效且高度類似藥物。

研究人員將PocketFlow應用於兩個與表觀遺傳調控相關的新靶蛋白 HAT1 和 YTHDC1,併成功獲得了溼實驗室驗證的生物活性化合物。活性化合物與靶蛋白的結合模式與分子對接預測的相近,並透過 X 射線晶體結構進一步證實。

該研究以「PocketFlow is a data-and-knowledge-driven structure-based molecular generative model」為題,於 2024 年 3 月 11 日釋出在《Nature Machine Intelligence》。

圖片

創新藥物發現是一個極其複雜且昂貴的過程,主要包括活性種子化合物(通常稱為命中或先導化合物)的檢索、命中/先導化合物最佳化、臨床前評估和臨床試驗。

其中,命中/先導化合物的檢索是第一步,也是關鍵的一步,因為它是啟動新藥開發專案的基礎,並且可以極大地影響後續的藥物開發步驟。

傳統上,命中/先導化合物的發現是透過針對已知化合物庫的高通量篩選來完成的。然而,現有化合物庫的結構多樣性有限,以及各個藥物開發機構或公司的長期持續篩選,使得檢索新的活性化合物和建立智慧財產權變得越來越困難。

DGM 面臨的挑戰

深度生成模型(DGM)在生成影像、文字和聲音方面取得了巨大成功,為生成全新的種子化合物提供了一種有效的方法。雖然基於結構的 DGM 可以在蛋白質結合袋內生成新型配體分子,但仍然存在許多具有挑戰性的問題:

(1)現有的資料集由已知的實驗蛋白質-配體複合物結構組成,規模較小,不足以訓練生成模型。

(2)目前,基於結構的 DGM 仍然是一種資料驅動的方法;越來越多的觀點認為,將領域知識或規則融入深度學習模型可以有效解決資料缺乏、穩健性和可解釋性差的問題。

(3)當前大多數深層分子生成模型在訓練和生成過程中並未考慮化學鍵資訊。相反,它們輸出一組沒有連線性的離散原子,然後透過第三方方法(例如 OpenBabel)將這些原子組裝成分子。這種策略可能會產生許多不需要的子結構,從而導致化學合成困難或藥物相似性低。

(4)雖然生成的分子已在理論上得到驗證,但其生物活性和結合模式尚未透過溼實驗室實驗驗證。

資料和化學知識雙驅動的 DGM

為了應對這些挑戰,四川大學的研究團隊提出了一種由資料和化學知識雙驅動的基於結構的分子生成框架,名為 PocketFlow。

在 PocketFlow 中,研究人員提出了一種基於最優向量的等變圖神經網路、一種幾何雙瓶頸感知器(GDBP)來對蛋白質-配體複合物的幾何結構進行建模。

為了捕獲蛋白質和配體之間的相互作用資訊,研究人員將蛋白質和配體的拓撲知識引入到模型中。還採用了三角自注意力機制和遷移學習等許多技術來增強模型學習幾何約束和化學結構的能力。

圖片

圖示:PocketFlow的架構和生成過程。(來源:論文)

特別值得一提的是,化學知識深深融入到分子生成過程中。在各種計算驗證中,與基線相比,PocketFlow 顯示出生成藥物樣分子的最佳能力。

PocketFlow 生成的分子在許多方面都比基線生成的分子更接近真實的藥物樣分子(CrossDocked2020),包括合成可及性、鍵長分佈、鍵角分佈和環結構。此外,與基線相比,PocketFlow 可以生成具有更好結合位點(口袋內部)和更高配體效率的分子。

圖片

圖示:評估生成分子的幾何形狀。(來源:論文)

研究人員在 PocketFow 中使用的引數相對較少(大約21萬個),這表明對計算資源的需求較少;引數較多的模型預計比引數較少的模型具有更好的效能,但需要更多的計算資源。

重要的是,PocketFlow 的有效性已透過溼實驗室實驗得到驗證。該團隊將 PocketFlow 應用於 HAT1 和 YTHDC1,它們被認為是治療各種疾病,特別是治療癌症相關的重要靶點。

圖片

圖示:從不同 DGM 生成的分子中隨機選擇的 1,000 個分子的原子位置分佈。(來源:論文)

首先使用 PocketFlow 在兩種蛋白質的活性口袋內生成小分子。然後,從生成的分子中,研究人員分別為 HAT1 和 YTHDC1 選擇併合成了兩個和三個非常簡單的分子;選擇這些分子是因為它們除了具有良好的 QED 或 LE 值之外,還可以輕鬆快速地製備。獲得了一種針對 HAT1 的活性化合物和兩種針對 YTHDC1 的活性化合物。

PocketFlow 生成的活性化合物的結合位點和結合位姿與分子對接預測的非常相似。實驗 X 射線共晶結構進一步證實所獲得的活性化合物確實與指定的蛋白袋結合。

結語

總之,PocketFlow 是一個資料和知識雙驅動的 DGM,在所有測試的 DGM 中顯示出 SOTA 效能。同時在某些方面也存在改進的空間。例如,可以進一步提高生成的分子的結合親和力,這可以透過引入強化學習來實現。其他需要改進的領域,包括考慮蛋白質的靈活性以及所生成分子的藥代動力學特性和毒性。

論文連結:https://www.nature.com/articles/s42256-024-00808-8

相關文章