類GPT化學語言模型,9秒生成100種化合物,微軟AI藥物設計平臺登Nature子刊

ScienceAI發表於2024-11-03
圖片

編輯 | KX

以 ChatGPT 為代表的生成式 AI 技術正在徹底改變藥物研發領域。生成式藥物設計能夠從零開始建立全新分子或化合物,而無需依賴於現有的模板或分子框架。

然而,生成的分子的實用性往往有限,因為許多設計都集中在一組狹窄的藥物相關特性,無法提高後續藥物發現過程的成功率。

為了克服這些挑戰,微軟研究院科學智慧中心、中國科學技術大學和全球健康藥物研發中心(GHDDI)的研究團隊合作開發了 AI 藥物設計平臺 TamGen,這是一種採用類似 GPT 的化學語言模型方法。

TamGen 透過基於 Transformer 自注意力機制的生成式 AI 模型,實現了針對致病靶蛋白的分子精準生成、最佳化以及合成與生物實驗驗證,開闢了創新藥物發現的新路徑。

研究證明 TamGen 生成的化合物具有更好的分子質量和活性。將 TamGen 整合到藥物發現流程中,確定了 14 種對結核桿菌 ClpP 蛋白酶表現出顯著抑制活性的化合物。其中,最有效的化合物顯示出半數最大抑制濃度(IC50)為 1.9 μM。

GHDDI 中心主任丁勝表示:「TamGen 的初步成果標誌著生成式藥物設計領域的一項重要創新,為未來的 AI 藥物研發提供了強有力的實用性和適用性證據。隨著人工智慧技術在藥物發現領域的持續進步,TamGen 有望加速新藥研發,幫助應對包括結核病在內的多種公共衛生挑戰。」

相關研究以「TamGen: drug design with target-aware molecule generation through a chemical language model」為題,於 10 月 29 日釋出在《Nature Communications》上。

圖片

論文連結:https://www.nature.com/articles/s41467-024-53632-4

生成式藥物設計面臨的挑戰

設計對致病蛋白靶標具有高結合親和力的化合物可以顯著加快藥物發現過程。基於靶標資訊生成化合物的生成式 AI 方法不僅可以加快這一過程,還可以探索現有化合物庫之外更大的化學空間。

然而,儘管 AI 生成了大量新型化合物,但現有方法在提供有效候選藥物方面仍然面臨挑戰。

TamGem:類 GPT 的化學語言模型

為了應對生成式藥物設計面臨的挑戰,微軟與 GHDDI 聯合開發了 TamGen。

其創新之處在於,在類 GPT 生成模型的基礎上加入了交叉注意力機制,並透過學習大量的已知和模擬的蛋白-配體結構資料,使得模型在生成新的化學分子時,能夠同時考慮致病靶蛋白的資訊。

這一改進使 TamGen 能夠基於靶蛋白活性位點資訊精準生成具備潛在相互作用的分子,進而增強分子生成的靶向性以及藥物設計的合理性與精準度,再結合分子模擬、細胞活性 AI 模型與專家經驗進一步虛擬篩選與最佳化,從而大幅提升發現候選藥物的效率與成功率。

GHDDI 資料科學平臺負責人郭晉疆博士表示:「傳統的生成式 AI 設計方法更像是先造出無數把鑰匙,再一把一把地試能否開啟門。而 TamGen 則像是在比對鎖眼,更精確地匹配鑰匙。」

圖片

圖示:TamGen 模型架構。(來源:論文)

研究團隊透過三個模組實現了 TamGen:(1) 化合物解碼器,一種類似 GPT 的化學語言模型,也是 TamGen 的核心元件,為化學空間中的化合物生成奠定了基礎;(2) 蛋白質編碼器,一種基於 Transformer 的模型,用於編碼靶標蛋白質的結合位點;(3) 用於化合物編碼和細化的上下文編碼器。

TamGen 生成藥物設計高效且有效

為了對 TamGen 的整體效能進行基準測試,研究人員將其方法與最近提出的五種方法進行了比較:liGAN、3D-AR、Pocket2Mol、ResGen 和 TargetDiff。

圖片

圖示:TamGen 在化合物生成方面效能最佳。(來源:論文)

結果顯示,雖然每種方法在某些指標上都表現出優勢,但 TamGen 始終名列前茅。例如,TamGen 在 6 個指標中的 5 箇中排名第一或第二,並表現出最佳的整體效能。這一發現表明 TamGen 能夠在生成過程中同時最佳化化合物的多個方面。

值得指出的是,對於具有高結合親和力的化合物,TamGen 在 SAS 方面表現最佳,這些化合物可能對靶蛋白具有優異的生物活性。

圖片

圖示:TamGen 在執行時間上明顯優於其他方法。(來源:論文)

與其他方法相比,TamGen 的效率也最高。研究使用一臺 A6000 GPU 對所有方法的每個靶標生成 100 種化合物的時間進行了基準測試。其他方法需要數十分鐘或數小時才能完成此任務,而 TamGen 平均僅需 9 秒即可完成此任務。這使得 TamGen 比 ResGen、TargetDiff、Pocket2Mol 和 3D-AR 分別快 85、154、213 和 394 倍。

總的來說,TamGen 在生成新化合物方面既有效又高效。

發現 14 種對結核病有效的化合物

接下來,研究人員使用 TamGen 設計針對 ClpP 的小分子抑制劑。

結核病(TB)是由結核分枝桿菌 (Mtb) 引起的傳染病。研究專注於酪蛋白水解蛋白酶 P (ClpP),它是細菌蛋白質降解系統中必需的絲氨酸蛋白酶,也是抗生素開發的新興靶點。

圖片

圖示:結核病藥物生成的設計-改進-測試流程圖。(來源:論文)

使用由 TamGen 驅動的設計-改進-測試流程來識別潛在的 ClpP 抑制劑。研究發現了 14 種對 Mtb ClpP 表現出良好效力的候選化合物,半數最大抑制濃度 (IC50) 範圍為 1.88 μM 至 35.2 μM。

值得注意的是,TamGen 生成的化合物不僅豐富了進一步最佳化的候選池,而且還為命中擴充套件和構效關係 (SAR) 合成提供了有效的靶點。這些發現凸顯了 TamGen 在靶標感知藥物設計中的廣泛適用性和巨大潛力。

未來展望

下一步,TamGen 的研究方向將集中在整合更多三維生成方法的優勢,比如採用蒙特卡洛樹搜尋(MCTS)或分子動力學模擬技術,進一步改善生成化合物與靶蛋白結合能力及其他重要藥物性質,如穩定性、合成可能性以及 ADME/T 特性。

參考內容:https://mp.weixin.qq.com/s/ToKG6upzt3Gl-b29PNfPRg

相關文章