「兩全其美」,從頭設計分子,深度學習架構S4用於化學語言建模

ScienceAI發表於2024-08-02
「兩全其美」,從頭設計分子,深度學習架構S4用於化學語言建模
編輯 | KX

生成式深度學習正在重塑藥物設計。化學語言模型 (CLM) 以分子串的形式生成分子,對這一過程尤為重要。

近日,來自荷蘭埃因霍芬理工大學(Eindhoven University of Technology)的研究人員將一種最新的深度學習架構(S4)引入到從頭藥物設計中。

結構化狀態空間序列(Structured State Space Sequence,S4)模型在學習序列的全域性屬性方面表現卓越,那麼 S4 能否推進從頭設計的化學語言建模?

為了給出答案,研究人員系統地在一系列藥物發現任務上對 S4 與最先進的 CLM 進行了基準測試,例如生物活性化合物的鑑定以及類藥物分子和天然產物的設計。S4 在學習複雜分子特性的同時,還具有探索多種支架的優越能力。

最後,當前瞻性地應用於激酶抑制時,S4 設計的 10 個分子中有 8 個被分子動力學模擬預測為高活性。

總而言之,S4 在化學語言建模中極具潛力,尤其是在捕捉生物活性和複雜分子性質方面。這是首次將狀態空間模型應用於分子任務。

相關研究以「Chemical language modeling with structured state space sequence models」為題,於 7 月 22 日釋出在《Nature Communications》上。

圖片

論文連結:https://www.nature.com/articles/s41467-024-50469-9

從頭開始設計具有所需特性的分子是一個「大海撈針」的問題。化學宇宙包含多達 10^60 個小分子,在相當大的程度上仍處於未知狀態。

生成式深度學習無需手工設計規則即可生產所需的分子,從而以省時、低成本的方式探索化學宇宙。特別是,CLM 已經產生了經過實驗驗證的生物活性設計,並作為強大的分子發生器脫穎而出。

CLM 採用為序列處理開發的演算法來學習「化學語言」,即如何生成化學有效(語法)並具有所需特性(語義)的分子。這是透過將分子結構表示為字串符號來實現的,例如簡化分子輸入行輸入系統 (SMILES) 等。然後,這些分子字串用於模型訓練,並隨後以文字形式生成分子。

圖片

圖示:化學語言建模的結構化狀態空間序列(S4)模型的關鍵概念。(來源:論文)

幾種用於從頭設計的 CLM 架構,其中最受歡迎的是長短期記憶 (LSTM) 模型和 Transformer 架構。

結構化狀態空間序列模型 (S4) 是狀態空間架構家族中快速發展的新成員,其在深度學習社群中越來越受到關注。S4 在音訊、影像和文字生成中表現出色,並且具有「雙重性質」:它們 (1) 在整個輸入序列上進行訓練以學習複雜的全域性屬性,(2) 一次生成一個字串元素,從而結合了 Transformer 和 LSTM 各自的一些優勢。受這種「兩全其美」的啟發,研究人員在此提出以下問題:S4 能否推動化學語言建模的最新發展?

在該研究中,研究人員將 S4 應用於 SMILES 字串上的化學語言建模,並針對與藥物設計相關的各種任務對其進行基準測試,從學習生物活性到化學空間探索和天然產物設計。

類藥物分子和天然產物設計

研究人員在一系列藥物發現任務上對 S4 與最先進的 CLM 進行了基準測試,例如類藥物分子和天然產物的設計。

首先,對 S4 進行了分析,以瞭解其設計從 ChEMBL 資料庫中提取的類藥物小分子(SMILES 長度低於 100 個 tokens)的能力。

圖片

所有 CLM 均生成了超過 91% 的有效分子、91% 的獨特分子和 81% 的新分子。S4 透過生成比基準更多的新分子(大約 4000 到 12,000 多個)來設計最有效、最獨特和最新穎的分子,並顯示出良好的學習 SMILES 字串「化學語法」的能力。與現有的從頭設計方法相比,S4 的潛力在 MOSES 基準上得到了進一步證實,其中 S4 始終位列表現最好的深度學習方法之列。

S4 還針對比類藥物分子更具挑戰性的分子實體進行了進一步測試。為此,研究人員評估了其設計天然產物 (NPs) 的能力。與合成小分子相比,NPs 往往具有更復雜的分子結構和環系統,以及更大比例的 sp3 雜化碳原子和手性中心。這些特徵對應於平均更長的 SMILES 序列,具有更多的長程依賴性,並使天然產物成為 CLM 的具有挑戰性的測試用例。

圖片

所有 CLM 都可以設計天然產物,但與類藥物分子相比,其效能較低。S4 設計的有效分子數量最多,比 S4 多出約 6000 到 12,000 個分子(好 7-13%),而 LSTM 的新穎性最高,比 S4 多出約 2000 個分子(2%)。

最後,還分析了增加 SMILES 長度時 CLM 架構的訓練和生成速度,以測試它們在設計更大分子(如天然產物)時的實際適用性。分析強調,由於其雙重性,S4 在訓練過程中與 GPT 一樣快(兩者都比 LSTM 快約 1.3 倍),並且在生成方面最快。這進一步主張引入 S4 作為分子設計的有效方法,與 GPT 和 LSTM 相比,「兼具兩全其美」。

前瞻性從頭設計

研究人員使用 S4 進行了一項前瞻性計算機模擬研究,重點是設計絲裂原活化蛋白激酶 1 (MAPK1) 的抑制劑,這是腫瘤治療的相關靶點。然後透過分子動力學 (MD) 評估設計的假定生物活性。

圖片

圖示:使用 S4 進行假定 MAPK1 抑制劑的前瞻性從頭設計。(來源:論文)

S4 模型經過微調,然後使用微調模型的最後五個 epochs 生成 256K 個分子。透過對數似然得分和與訓練集的支架相似性對設計進行排序和篩選,10 個得分最高的分子使用 MD 模擬進行進一步表徵。

透過 MD 預測,10 個設計中有 8 個對預期目標具有生物活性,並且預測親和力與最接近的微調分子相當或更高,這些結果進一步證實了 S4 用於從頭藥物設計的潛力。

分子 S4 的機會

總之,本研究率先將狀態空間模型引入化學語言建模,重點關注結構化狀態空間 (S4)。S4 獨特的雙重性質,包括訓練中的卷積和迴圈生成,使其特別適合從 SMILES 字串開始的從頭設計。

研究人員在各種藥物發現任務上與 GPT 和 LSTM 進行了系統比較,揭示了 S4 的優勢:雖然迴圈生成 (LSTM 和 S4) 在學習化學語法和探索各種支架方面更勝一籌,但對整個 SMILES 序列進行整體學習 (GPT 和 S4) 在捕捉某些複雜特性(如生物活性)方面表現出色。

S4 具有雙重性質,「兼具兩全其美」:它在設計有效且多樣化的分子方面與 LSTM 表現相當或更好,並且在捕捉複雜分子性質方面系統性地優於基準,同時保持計算效率。

S4 在 MAPK1 抑制中的應用已透過 MD 模擬得到驗證,這進一步展示了其設計強效生物活性分子的潛力。未來,研究人員將前瞻性地將 S4 與溼實驗室實驗相結合,以增強其在該領域的影響。

S4 在分子科學領域還有許多方面有待探索,例如其在更長序列(例如大環肽和蛋白質序列)和其他分子任務(例如有機反應規劃和基於結構的藥物設計 中的潛力。

未來,S4 在分子發現中的應用將不斷增加,並有可能取代 LSTM 和 GPT 等廣泛應用的化學語言模型

相關文章