分子100%有效,從頭設計配體,湖南大學提出基於片段的分子表徵框架

ScienceAI發表於2024-07-05

分子100%有效,從頭設計配體,湖南大學提出基於片段的分子表徵框架

編輯 | KX

分子描述符廣泛應用於分子建模,但在 AI 輔助分子發現領域,缺乏自然適用、完整且「原始」的分子表徵是一個挑戰,影響 AI 模型的效能和可解釋性。

在使用先進的自然語言處理(NLP)方法解決化學問題時,會出現兩個基本問題:(1)什麼是「化學詞」?(2)如何將它們編碼為「化學句子」?

近日,湖南大學研究團隊提出了一種靈活的、基於片段的多尺度分子表徵框架 t-SMILES 的框架來解決第二個問題。

該框架使用 SMILES 型別的字串描述分子,並且可以將基於序列的模型作為主要生成模型。t-SMILES 具有三種程式碼演算法:TSSA、TSDY 和 TSID。

實驗表明,t-SMILES 模型可以生成 100% 理論有效性且高度新穎的分子,優於基於 SOTA SMILES 的模型。

此外,無論模型是原始的、資料增強的還是預訓練後微調的,它都可以避免過擬合,並在標記的低資源資料集上保持合理的相似性的同時獲得更高的新穎性分數。

該研究以「t-SMILES: a fragment-based molecular representation framework for de novo ligand design」為題,於 6 月 11 日釋出在《Nature Communications》上。

圖片

論文連結:https://www.nature.com/articles/s41467-024-49388-6

基於 SMILES 的分子表徵法研究

分子的有效表徵是影響人工智慧模型效能的關鍵因素。

圖神經網路(GNN)因其能生成 100% 有效的分子而流行,但其表達能力受限。

簡化分子線性輸入規範(SMILES)作為一種線性表示法,易產生化學無效字串。DeepSMILES 和 SELFIES 作為替代方案雖有所改進,但仍存在問題。

此外,研究表明語言模型 (LM) 在學習大型複雜分子方面可能優於大多數 GNN。最近,基於 Transformers 的 LM 已經展示了它們生成與人類書寫極為相似的文字的能力。

受這些想法啟發,研究者選擇 SMILES 作為片段描述的起始選擇,並結合先進的自然語言處理技術來處理基於片段的分子建模任務,這可以融合圖模型更注重分子拓撲結構和 LM 的強大學習能力的優勢。

生成 100% 有效的新分子,優於 SOTA

因此,湖南大學團隊提出了一種基於碎片化分子的新型分子描述框架 t-SMILES(基於樹的 SMILES)。該框架包含三種 t-SMILES 編碼演算法:TSSA(具有共享原子的 t-SMILES),TSDY(具有虛擬原子但不具有 ID 的 t-SMILES)和 TSID(具有 ID 和虛擬原子的 t-SMILES)。

圖片

圖示:t-SMILES 演算法概述。(來源:論文)

新提出的 t-SMILES 框架首先生成一個無環分子樹(Acyclic molecular tree,AMT),其作用是表示碎片化的分子。第二階段將 AMT 轉換為全二叉樹(Full binary tree,FBT)。最後,對 FBT 進行廣度優先遍歷得到 t-SMILES 字串。

與 SMILES 相比,t-SMILES 僅引入了兩個新符號「&」和「^」,以編碼多尺度和分層的分子拓撲。因此,t-SMILES 演算法提供了一個可擴充套件且適應性強的框架,理論上能夠支援廣泛的子結構方案,只要它們生成化學上有效的片段併產生有效的 AMT。

此外,由於其多尺度和層次化表示,基於 t-SMILES 的模型能夠在處理詳細的子結構資訊的同時學習高階拓撲結構資訊。

值得注意的是,t-SMILES 演算法可以構建一個用於分子描述的多程式碼系統。在這個系統中,經典的 SMILES 可以作為 t-SMILES 的一個特例整合,稱為 TS_Vanilla,並且多個描述可以協作以提高綜合效能。

圖片

圖示:TSSA 程式碼、SMILES 和 SELFIES 的 tokens 分佈。(來源:論文)

首先,研究人員透過深入研究其獨特的特徵來系統地評估 t-SMILES。隨後,使用 TSSA 和 TSDY 對兩個標記的低資源資料集 JNK332 和 AID170633 進行了實驗。

研究重點是 t-SMILES 及其替代品的侷限性,這些侷限性是透過利用標準、資料增強和預訓練微調模型實現的。使用 TSDY、TSSA 和 TSID 並行評估了 ChEMBL 上的 20 個目標導向任務。還對 ChEMBL、Zinc 和 QM9 進行了徹底的實驗,透過使用類似的設定比較 t-SMILES 及其替代品。此外,比較了各種基於片段的基線模型和 SOTA GNN 模型。

最後,進行了一項消融研究,以確認基於帶重建的 SMILES 的生成模型的有效性。為了評估 t-SMILES 演算法的適應性和靈活性,使用了四種先前發表的碎片演算法來分解分子,包括 JTVAE、BRICS、MMPA 和 Scaffold。不同實驗採用了三種指標:分佈學習基準、目標導向基準和物理化學性質的 Wasserstein 距離指標。

詳細的對比實驗表明,t-SMILES 模型生成的新分子 100% 理論有效,優於基於 SOTA SMILES 的模型。與 SMILES、DSMILES 和 SELFIES 相比,t-SMILES 的整體解決方案可以避免過擬合問題,並顯著提高低資源資料集上的平衡效能,無論是使用資料增強還是預訓練然後微調的模型。

圖片

圖示:使用 GPT 在 ZINC 上進行的分佈學習基準測試的結果。(來源:論文)

此外,t-SMILES 模型能夠熟練地捕捉分子的物理化學性質,確保生成的分子與訓練分子分佈保持相似性。與現有的基於片段和基於圖的基線模型相比,這顯著提高了效能。特別是,具有目標導向重建演算法的 t-SMILES 模型在面向目標的任務中比 SMILES、DSMILES、SELFIES 和 SOTA CReM 表現出明顯的優勢。

侷限性和有待改進之處

LLM 可以理解格式良好的英語語法。因此,是否可以學習 t-SMILES 的樹結構,以及 LM 如何超越表面的統計相關性來學習分子的化學知識仍有待深入探索。

該研究專注於將碎片分子編碼為序列,因此僅使用已釋出的碎片演算法作為示例來建立「化學詞」。未來的研究可以利用 t-SMILES 探索其他碎片演算法,更深入地解讀化學句子和含義,這實際上比 NLP 更具挑戰性。

雖然 t-SMILES 旨在提高分子描述的效能並規避 SMILES 的侷限性,但該研究並未對更復雜的分子進行實驗。這將是未來研究的主題。

最後,這是將碎片分子編碼為 SMILES 型別字串的一個有希望的開端。進一步的研究可以探索分子重建和最佳化的高階演算法、改進的生成模型和進化技術。此外,研究可以集中在屬性、逆合成和反應預測任務上。

注:封面來自網路

相關文章