編輯 | 蘿蔔皮
深度生成模型在藥物從頭設計領域受到廣泛關注。然而,針對新靶點合理設計配體分子仍然具有挑戰性,特別是在控制生成分子的性質方面。
在這裡,受到 DNA 編碼化合物庫技術的啟發,湖南大學和西安電子科技大學的研究人員提出了 DeepBlock,這是一種基於塊(block)的配體生成深度學習方法,可根據目標蛋白質序列進行定製,同時實現精確的屬性控制。
此外,DeepBlock 還可以結合最佳化演算法和深度學習來調控生成分子的性質。
該研究以「A deep learning approach for rational ligand generation with toxicity control via reactive building blocks」為題,於 2024 年 11 月 8 日釋出在《Nature Computational Science》。
尋找能夠與特定蛋白質結合的小分子配體是藥物發現中的關鍵環節。虛擬篩選已成為一種重要方法,利用計算機程式在小分子庫中識別生物活性化合物。然而,虛擬篩選的有效性受到巨大化學空間和所用化合物庫的限制。
相比之下,從頭藥物設計策略(從頭生成分子結構)提供了一種有希望的途徑,可以探索現有庫之外更廣闊的化學空間。
近年來,這些模型在分子生成上取得了顯著進展,但它們通常缺乏針對特定蛋白質靶標的生成能力,因此需要透過額外篩選或結合強化學習等技術來彌補。此外,生成分子的可合成性和藥物的毒性、代謝等特性也需在實際藥物開發中予以考慮。
DNA 編碼化合物庫技術已成為一種廣泛接受的溼實驗室藥物發現方法。該方法利用組合化學透過分子構件的反應快速生成大量候選化合物。
DeepBlock
受 DNA 編碼化合物庫技術的啟發,湖南大學和西安電子科技大學的研究團隊提出了一種基於深度學習的框架 DeepBlock,利用分子構件進行從頭藥物設計。這裡的構件表示能夠相互發生化學反應的分子片段。
DeepBlock 的核心理念是將分子生成過程分解為兩個連續步驟:首先,根據蛋白質序列嵌入特徵生成構建塊,然後將其組裝成完整的分子。透過利用這些塊的固有屬性及其之間的化學相互作用,DeepBlock 可以設計出更優質的合理分子。
基於這一理念,研究人員在 DeepBlock 中設計了有效的機制來解決兩個關鍵任務:根據蛋白質序列定製分子生成和生成過程中的屬性控制。
在 DeepBlock 中,該團隊加入了塊生成網路(BGNet),這是一種條件深度生成模型,旨在根據給定的蛋白質序列生成塊序列。BGNet 結合了兩個關鍵特性,可顯著提高其效能。
首先,它由一個在大規模分子資料集上預訓練的分子塊自動編碼器構建而成,它包含 10,701 個塊的廣泛詞典,其中包含各種常用的片段。這種預訓練擴充套件了化學空間,並緩解了由於蛋白質-配體對資料集的大小有限而導致的潛在過度擬合。
其次,研究人員在 DeepBlock 中引入了一個關鍵元件——靶標貢獻感知模組。該模組增強了模型自主識別配體與殘基之間相互作用的能力,彌補了蛋白質序列中 3D 結構資訊的缺失。
BGNet 中這兩個特徵的結合凸顯了其生成多樣化和生物活性分子片段的能力,有效地解決了蛋白質序列資料帶來的挑戰。
圖示:最佳化前後親和力對比。(來源:論文)
此外,該團隊將 BGNet 與模擬退火 (SA) 演算法或貝葉斯最佳化 (BO) 結合使用來控制生成過程,旨在增強其他特性,同時保留其對目標蛋白質的結合親和力。
圖示:最佳化過程和結果。(來源:論文)
研究團隊還進行了以藥物毒性為最佳化目標的實驗。當與以毒性為最佳化目標的模擬退火或貝葉斯最佳化相結合時,DeepBlock 成功生成具有低毒性的配體,同時保留與靶標的親和力。
未來工作
該方法也存在侷限性。
DeepBlock 目前只能從現有的塊字典中生成塊,因此限制了其生成的分子的多樣性。
該團隊未來的研究方向是探索從頭生成塊的方法,從而將該模型從現有字典塊的限制中解放出來,並釋放其可以建立的分子的更大多功能性和新穎性的潛力。
此外,DeepBlock 生成二維 (2D) 分子結構作為 SMILES 字串,提供可控屬性和對新目標的適用性。雖然 SMILES 字串為各種藥物開發場景提供了足夠的結構資訊,但它們缺乏 3D 結構細節。
未來的研究將側重於將該方法與 LiGAN 等方法相結合,以開發基於分子構建塊的受控 3D 分子生成方法。這種混合方法可以結合 2D 和 3D 藥物設計方法的優勢,從而有可能提高藥物發現的效率和有效性。
論文連結:https://www.nature.com/articles/s43588-024-00718-0