化學逆合成SOTA!上海交大團隊提出SMILES對齊技術實現高效逆合成預測

ScienceAI發表於2024-07-30

圖片

編輯 | ScienceAI

逆合成規劃在藥物研發中扮演著至關重要的角色,而單步逆合成預測更是這一過程的核心。

透過運用Transformer等先進的序列模型,將單步逆合成預測問題轉化為從產物SMILES表示到反應物SMILES表示的翻譯任務,已經成為一種廣泛採用且效果顯著的策略。

然而,這種方法往往忽略了一個關鍵點:在反應物和產物之間,存在大量可以被直接利用的相同子結構。對這些子結構利用的不充分限制了模型預測的效率和準確性。

2024年7月,上海交通大學人工智慧研究院金耀輝、許巖巖研究團隊在《Journal of Cheminformatics》上發表文章《Ualign: pushing the limit of template-free retrosynthesis prediction with unsupervised SMILES alignment》。

在研究中作者提出一套單步逆合成預測流程,該流程整合了一種無監督的SMILES序列對齊技術,旨在提高化學反應預測的準確性和效率。實驗結果證明了模型在預測逆合成路徑方面的有效性,並表明該模型有潛力成為藥物發現的有價值的工具。

圖片

論文連結:https://jcheminf.biomedcentral.com/articles/10.1186/s13321-024-00877-2

Graph to Sequence的模型架構

如果將原子視作節點,化學鍵視為邊,分子結構便能自然地轉化為圖結構。相較於序列模型,圖神經網路更能捕捉分子內部的拓撲結構資訊,從而實現更為精確的分子表徵。

此外,與其他圖結構相比,化學分子中的化學鍵攜帶了豐富的化學屬性資訊。

基於這些優勢,作者提出了一種基於圖注意力網路(Graph Attention Network)的變體,用以替代Transformer模型中的編碼器部分,旨在為下游應用提供更為強大的分子表徵能力。

圖片

圖:模型示意圖

無監督的SMILES對齊機制

在單步逆合成預測中,採用序列建模的方法通常意味著必須從零開始構建反應物的結構,而不能在已有產物的基礎上進行直接修改,以高效地利用反應物和產物之間相同的子結構。這種做法在一定程度上限制了生成結果的準確性。

考慮到序列建模常用的分子SMILES表徵實際上是按照深度優先搜尋的順序排列分子中的原子和化學鍵,如果能向模型提供每個產物原子在反應物SMILES表徵中出現的位置資訊,將有助於模型識別並複用在反應過程中未發生改變的子結構。這將顯著降低模型預測反應物的難度,並提高預測的準確性。

從序列建模的角度來看,常用的分子SMILES表徵實質上是依據深度優先搜尋(DFS)的順序對分子中的原子和化學鍵進行排列。若能向模型提供產物中每個原子在反應物SMILES表徵中的位置資訊,將極大地促進模型對未發生改變的子結構的識別和複用,從而顯著降低預測反應物的難度,提高預測的準確性。

然而,直接提供這種對應資訊可能會在模型訓練過程中引入資訊洩露的風險。為避免這一問題,研究者提出了一種創新的策略,旨在不洩露標籤資訊的前提下,最佳化模型對反應物分子結構的理解和預測能力。

考慮到SMILES序列表徵源自於分子圖上的深度優先搜尋,並且反應物與產物間的大部分子結構具有高度一致性,對於給定的任意產物的DFS順序,必然存在一個與之對應的反應物分子圖上的DFS順序,使得反應物和產物上的對應原子出現的順序幾乎相同。

基於此策略,研究者不僅將產物分子結構納入模型輸入,還引入了反應物分子的DFS順序作為輸入的一部分。

此外,研究者根據上述策略生成了與給定反應物DFS順序高度一致的產物分子DFS順序,並利用這一順序生成反應物的SMILES表徵,作為模型訓練的目標。

這種設計使得反應物和產物之間的相似子結構在模型的輸入和輸出中以幾乎相同的順序排列,從而簡化了模型學習反應物和產物相同結構對應關係的過程,並有助於識別反應過程中發生改變的基團。

即便在從零開始構建反應物結構的情況下,這種方法也能有效地複用產物結構資訊,顯著提高預測的準確率。

尤為重要的是,由於產物的DFS順序僅基於其分子結構資訊,不依賴於任何關於反應物的資訊作為標註,這種方法有效避免了模型訓練過程中的標籤洩露問題。

同時,這種無監督的SMILES對齊方式在訓練過程中無需引入額外的監督訊號,從而避免了複雜的資料標註和多工學習中的最佳化難題,為分子逆合成預測領域提供了一種新穎且高效的研究途徑。

實驗結果展示

在本項研究中,作者對多個分子逆合成預測資料集進行了系統性評估,涵蓋了廣泛使用的USPTO-50K資料集,以及資料量更龐大的USPTO-MIT和USPTO-FULL。

評估模型效能時,採用了top-k準確率作為主要的評價指標。在USPTO-50K資料集上,作者不僅考察了模型生成的SMILES序列的合法性,還透過大規模預訓練的正向反應預測模型,對模型輸出的合成方案進行了實際可行性的迴環驗證。

表1:USPTO-50K逆合成預測的Top-k準確率

圖片

USPTO-50K資料集的實驗結果彙總於表1,顯示在未指定具體反應型別的條件下,UAlign模型在USPTO-50K資料集上的top-5準確率高達84.6%,顯著優於其他無模板的基線模型。

表2:USPTO-MIT逆合成預測的Top-k準確率

圖片

表2和表3的實驗資料進一步證實,在更大規模的資料集USPTO-MIT和USPTO-FULL上,UAlign模型以顯著的優勢超越了其他各類基線模型。

表3:USPTO-FULL上逆合成預測的Top-k準確率

圖片

此外,表4的實驗結果表明,與其他基於SMILES的逆合成預測模型相比,UAlign模型生成的反應物SMILES序列具有更高的合法性。

表4:在USPTO-50K上對反應類別未知的逆合成預測的 Top-k SMILES 有效性

圖片

表5的實驗資料進一步凸顯了UAlign模型在生成合理且可行的合成方案方面的優勢。原因在於,UAlign所提出的合成方案中,有較高比例的方案能夠透過正向反應預測模型的驗證,即這些方案在經過相應的化學反應後,能夠有效地轉化為給定的目標產物。

表5:USPTO-50K上反應類別未知的逆合成預測Top-k往返準確率

圖片

這些實驗結果不僅驗證了UAlign模型在分子逆合成預測任務中的高效性和準確性,也突顯了其在處理大規模資料集時的卓越效能和在生成高質量合成方案方面的顯著優勢。

為驗證UAlign模型在實際生產中的應用潛力,作者選取了近兩年內由美國食品藥品監督管理局(FDA)批准上市的新藥作為合成目標,透過模型的多次迭代呼叫,成功獲取了合成路線。模型對這兩種藥物合成路線的預測結果與文獻中記錄的路徑高度一致。

此外,對於第三種藥物,模型所預測的合成路線也得到了化學領域專家的可行性認可。這些合成路徑不僅涵蓋了多種反應型別,還包含了諸如環狀化合物的合成以及涉及多個反應中心的單步逆合成預測等複雜情況。

上述實驗結果充分證明了UAlign模型不僅能夠應對多樣化的反應型別,而且在實際生產中具有較高的應用價值。這表明UAlign模型在分子逆合成預測領域具有強大的實用性和靈活性,能夠為藥物合成提供有效的解決方案。

圖片

圖:透過該方法進行多步逆合成預測

未來展望

UAlign模型憑藉其卓越的效能和靈活性,完全有能力作為構建多步逆合成系統的基石。它能夠與各種搜尋演算法以及多目標最佳化技術相結合,形成一套高效、智慧的逆合成路徑規劃系統。

此外,作者也在積極探索將UAlign演算法與先進的硬體裝置相融合,以打造自動化的無人實驗室來推進藥物發現和合成過程的自動化,為化學研究和藥物開發領域帶來革命性的變革。

相關文章