準確率達60.8%,浙大基於Transformer的化學逆合成預測模型,登Nature子刊

ScienceAI發表於2024-08-06

準確率達60.8%,浙大基於Transformer的化學逆合成預測模型,登Nature子刊

編輯 | KX

逆合成是藥物發現和有機合成中的一項關鍵任務,AI 越來越多地用於加快這一過程。

現有 AI 方法效能不盡人意,多樣性有限。在實踐中,化學反應通常會引起區域性分子變化,反應物和產物之間存在很大重疊。

受此啟發,浙江大學侯廷軍團隊提出將單步逆合成預測重新定義為分子串編輯任務,迭代細化目標分子串以生成前體化合物。並提出了基於編輯的逆合成模型 EditRetro,該模型可以實現高質量和多樣化的預測。

大量實驗表明,模型在標準基準資料集 USPTO-50 K 上取得了出色的效能,top-1 準確率達到 60.8%。

結果表明,EditRetro 表現出良好的泛化能力和穩健性,凸顯了其在 AI 驅動的化學合成規劃領域的潛力。

相關研究以「Retrosynthesis prediction with an iterative string editing model」為題,於 7 月 30 日釋出在《Nature Communications》上。

圖片

論文連結:https://www.nature.com/articles/s41467-024-50617-1

分子合成路徑設計是有機合成的一項重要任務,對生物醫學、製藥和材料工業等各個領域都具有重要意義。

逆合成分析是開發合成路線最廣泛使用的方法。它包括使用已建立的反應將分子迭代分解為更簡單、更易於合成的前體。

近年來,AI 驅動的逆合成促進了對更復雜分子的探索,大大減少了設計合成實驗所需的時間和精力。單步逆合成預測是逆合成規劃的重要組成部分,目前已有幾種基於深度學習的方法,且效果優異。這些方法大致可分為三類:基於模板的方法、無模板的方法和半基於模板的方法。

在此,研究人員專注於無模板逆合成預測。提出將問題重新定義為分子字串編輯任務,並提出基於編輯的逆合成模型 EditRetro,可以實現高質量和多樣化的預測。

圖片

圖示:所提出的基於分子串的逆合成的 EditRetro 方法的示意圖。(來源:論文)

該研究的核心概念是,透過使用 Levenshtein 操作的迭代編輯過程生成反應物字串。該方法從基於編輯的序列生成模型的最新進展中汲取靈感。具體來說,採用了 EDITOR 中的操作,EDITOR 是一種基於編輯的 Transformer,專為神經機器翻譯而設計。

EditRetro 概述

EditRetro 模型包含三種編輯操作,即序列重新定位、佔位符插入和標記插入,以生成反應物字串。它由一個 Transformer 模型實現,該模型由一個編碼器和三個解碼器組成,兩者都由堆疊的 Transformer 塊組成。

  • 重新定位解碼器:重新定位操作包括基本的 token 編輯操作,例如保留、刪除和重新排序。它可以與識別反應中心的過程進行比較,包括重新排序和刪除原子或基團以獲得合成子。
  • 佔位符解碼器:佔位符插入策略(分類器)預測要在相鄰 token 之間插入的佔位符數量。它在確定反應物的結構方面起著至關重要的作用,類似於識別從序列重新定位階段獲得的中間合成子中新增原子或基團的位置。
  • Token 解碼器:token 插入策略(分類器),負責為每個佔位符生成候選 token。這對於確定可用於合成目標產品的實際反應物至關重要。該過程可以看作是合成子完成的類似過程,結合佔位符插入操作。

EditRetro 模型透過其非自迴歸解碼器提高了生成效率。儘管結合了額外的解碼器來迭代預測編輯操作,但 EditRetro 在每個解碼器內並行執行編輯操作(即非自迴歸生成)。

當給定一個目標分子時,編碼器將其字串作為輸入並生成相應的隱藏表示,然後將其用作解碼器交叉注意模組的輸入。類似地,解碼器也在第一次迭代時將產品字串作為輸入。在每次解碼迭代期間,三個解碼器依次執行。

優於基線、生成準確反應物

研究人員在公共基準資料集 USPTO-50K 和 USPTO-FULL 上評估了所提方法。大量實驗結果表明,該方法在預測準確度方面優於其他基線,包括最先進的基於序列的方法 R-SMILES 和基於圖編輯的方法 Graph2Edits。

圖片

EditRetro 在基準逆合成資料集 USPTO-50K 上進行的大量實驗表明,EditRetro 取得了優越的效能,top-1 精確匹配準確率達到 60.8%。

圖片

此外,在更大的 USPTO-FULL 資料集上,其中 top-1 精確匹配準確率達到 52.2%,證明了其在更多樣化和更具挑戰性的化學反應中是有效的。

圖片

EditRetro 在 RoundTrip 和 MaxFrag 準確率方面也表現出優於基線方法的效能。這證明了 EditRetro 能夠有效地學習化學規則。

此外,EditRetro 透過精心設計的推理模組提供多樣化的預測。該模組結合了重新定位取樣和序列增強,有助於生成多樣化和變化的預測。重新定位取樣對重新定位動作的預測進行取樣,從而能夠識別不同的反應位點。序列增強從不同的產品變體到反應物生成不同的編輯途徑,從而提高了預測的準確性和多樣性。這兩種策略共同作用,提高了預測的準確性和多樣性。

進一步的實驗驗證了 EditRetro 在一些更復雜的反應中的優越性,包括手性、開環和成環反應。結果證實了 EditRetro 在這些具有挑戰性的場景中的優越性,證明了它能夠處理不同型別的化學轉化。

在多步合成規劃中的實用性

特別是,EditRetro 在四個多步驟逆合成規劃場景中的成功應用證明了其實用性。

為了評估 EditRetro 在合成規劃中的實用性,透過連續的逆合成預測設計完整的化學途徑。研究人員選擇了四種具有重要藥用價值的目標化合物進行評估:非布司他、奧希替尼、GPX4 的變構啟用劑和 DDR1 激酶抑制劑 INS015_037。

圖片

圖示:EditRetro 的多步逆合成預測。(來源:論文)

所有四個示例都產生了與文獻中報導的途徑非常一致的逆合成途徑,大多數預測排名在前兩位。在考慮的 16 個單獨步驟中,有 10 個步驟的預測準確率為 1。這些結果證明了 EditRetro 在實際逆合成預測中的實際潛力。

透過提供有價值的見解並促進高效合成路線的設計,該方法有望在逆合成規劃領域得到實際應用。

相關文章