準確率達100%,「人機互動」機器學習,驅動有機反應精確原子對映研究

ScienceAI發表於2024-04-03
圖片

編輯 | X

原子到原子對映(Atom-to-atom Mapping,AAM)是識別化學反應前後分子中每個原子位置的任務,這對於理解反應機理非常重要。

近年來,越來越多的機器學習模型用於逆合成和反應結果預測,這些模型的質量高度依賴於反應資料集中 AAM 的質量。雖然有一些演算法使用圖論或無監督學習來標記反應資料集的 AAM,但現有方法是基於子結構 alignments 而不是化學知識來對映原子。

在此,來自韓國首爾大學(Seoul National University)和韓國科學技術院(KAIST)的研究團隊,提出了一種 ML 模型——LocalMapper,可透過人機迴圈(human-in-the-loop)機器學習從化學家標記的反應中學習正確的 AAM。

研究表明,LocalMapper 透過僅從整個資料集中 2% 的人類標記反應中學習,就能以 98.5% 的校準精度預測 50 K 反應的 AAM。更重要的是,LocalMapper 給出的可信預測覆蓋了 50 K 反應中的 97%,對 3,000 個隨機取樣的反應顯示出 100% 的準確率。

在分佈外(Out-of-distribution,OOD)實驗中,LocalMapper 效能優於其他現有方法。研究人員期望 LocalMapper 可用於生成更精確的反應 AAM,並提高未來基於 ML 的反應預測模型的質量。

相關研究以《Precise atom-to-atom mapping for organic reactions via human-in-the-loop machine learning》為題,於 2024 年 3 月 13 日釋出在《Nature Communications》上。

圖片

論文連結:https://www.nature.com/articles/s41467-024-46364-y

AAM 在化學研究中的重要性

原子到原子對映 (AAM) 透過識別反應物原子和產物原子之間的一對一對映,在準備反應資料中發揮著至關重要的作用。高質量的 AAM 可以快速識別給定化學反應的反應中心,這對於許多已開發的化學反應分析和預測方法至關重要。

AAM 廣泛使用的應用之一是構建縮合反應圖 (CGR)。此外,AAM 還可以自動識別反應中心並從資料庫中提取反應模板,用於預測反應結果和單步逆合成機器學習模型。由於這些應用高度依賴於反應資料的 AAM,因此 AAM 的質量極大地影響機器學習模型的效能。隨著下游模型數量的不斷增加,為反應資料集構建高質量的 AAM 成為確保反應預測模型質量的緊迫任務。

現有的 AAM 識別方法通常可分為基於規則的和基於 ML 的方法。儘管比以前的方法準確度更高,但 AAM 需要 100% 的完美準確度,因為反應資料中的缺陷將在下游反應預測模型中被放大。然而,目前還沒有可靠的方法來檢測可能錯誤預測的 AAM,這使得預測中的錯誤難以識別。

此外,儘管現有的基於 ML 的無監督方法比基於規則的方法要快得多,並且適用於更廣泛的反應,但在不知道正確的 AAM 的情況下訓練模型可能會導致意外錯誤,即使對於簡單的反應也是如此。

三大重要突破

在此,研究人員透過 human-in-the-loop 機器學習提出了一種精確的基於圖的 AAM 模型,名為 LocalMapper。

該研究的重要突破體現在以下三個方面:

  • 所提出的基於知識的不確定性識別允許對 ML 模型預測進行快速化學感知驗證,為 3,000 個隨機取樣的置信預測生成 100% 正確的 AAM。
  • 開發的模型 LocalMapper 透過從人機迴圈機器學習生成的高質量訓練資料中學習經化學家驗證的 AAM,實現了最先進的 AAM 預測精度。與現有的基於 ML 的模型 RXNMapper 和 GraphormerMapper 相比,僅標記 2% 的反應,顯示出更好的預測精度。
  • 在分佈外實驗中,LocalMapper 比兩個現有的基於 ML 的 AAM 模型顯示出良好的預測精度,同時保持置信預測的 100% 準確度。

人機迴圈機器學習框架

為了訓練 LocalMapper,研究人員手動標記每個反應的 AAM,以保證訓練模型的反應中 AAM 的正確性。由於手動標記化學反應的 AAM 非常耗時(每個反應通常超過一分鐘),因此在大型資料集中標記大部分反應是不切實際的。因此,引入主動學習來僅標記一小部分代表性反應。

整個工作流程可以分解為以下 5 個步驟:

  1. 隨機取樣:為了初始化主動學習過程,從未對映的反應資料集中隨機取樣 k 個反應,其中 k 是人類專家一次性標記 AAM 的一個可承受的小數字。

  2. 標籤和訓練:接下來,手動標記取樣的 k 個反應的 AAM,並使用這些反應來訓練所提出的基於圖的模型 LocalMapper,其結構類似於逆合成模型 LocalRetro 和反應結果預測模型 LocalTransform。從人類繪製的反應中提取的反應模板用於更新模板庫,該模板庫將用於後續的不確定性識別。

  3. AAM 預測:接下來,使用 LocalMapper 來預測資料集中所有反應的反應物和產物之間的原子相關性。根據 LocalMapper 預測的原子-原子相關性,按照 Schwaller 等人引入的原子對映程式生成每個反應的 AAM。

  4. 置信度識別:對於每個預測反應的 AAM,提取反應模板來表示其反應模式。如果提取的反應模板存在於當前模板庫中,則該反應預測的 AAM 集合被認為是置信預測,否則是不確定預測。

  5. 主動取樣:對於從不確定預測中提取的每個唯一模板,從共享最多反應的模板開始對一個反應進行取樣,直到取樣到 k 個反應。然後,這些反應由人類化學家標記,並在下一次迭代中用於訓練模型,重複步驟 2。

從第二次迭代開始,研究人員使用半監督學習來訓練模型,從每個唯一驗證的反應模板的置信預測中取樣 100 個反應,以提高模型的穩健性。這些取樣反應按 9:1 的比例分為訓練集和驗證集,以防止過度擬合。

圖片

圖 1:在生成逆合成反應模板和基於化學知識推導反應機制方面,獲取正確的原子間對映 (AAM) 的重要性。(來源:論文)

LocalMapper

為了預測反應中反應物和產物之間的 AAM,研究人員設計了一個基於圖的模型,稱為 LocalMapper,以瞭解反應物中的每個原子重新定位到產物中的原子的機率。

與之前的逆合成模型 LocalRetro 和反應結果預測 LocalTransform 類似,使用圖來表示分子,以原子為節點,鍵為邊,並透過反應中原子的區域性和全域性特徵來學習 AAM 透過訊息傳遞神經網路和注意力機制。

圖片

圖 2:使用所提出的模型 LocalMapper 進行 AAM 的人機迴圈機器學習的總體方案。(來源:論文)

首先,研究人員使用 3 個訊息傳遞層對每個原子的區域性化學環境進行編碼,並透過 3 個多頭交叉注意塊根據反應物的原子特徵更新產物中的原子特徵。在反應物和產物之間的每個原子的特徵充分傳達後,透過單頭注意力塊計算產物和反應物之間的 AAM 相關性。

使用 Softmax 函式對注意力分數進行歸一化後,估計反應物中的每個原子與產物中的每個原子是相同原子的機率。按照 RXNMapper 中引入的原子對映程式,使用生成的機率從最高機率到最低機率識別從產物到反應物的 AAM。

100% 預測準確率

總之,研究人員提出了一種基於圖的 ML 模型 LocalMapper,以透過人機迴圈機器學習精確識別大型反應資料集的 AAM。透過利用專業知識手動標記少量反應資料,訓練了人機迴圈機器學習模型,以精確、自動地標記大量具有相似反應規則的反應。

表 1:手動檢查反應 AAM 前後,RXNMapper、GraphormerMapper 和 LocalMapper 在 USPTO-50K 資料集上的 AMM 結果。(來源:論文)

圖片

對於公開可用的 USPTO-50K 資料集,該模型僅透過學習 2% 的化學家標記反應,就能以 98.5% 的準確率預測 AAM。

表 2:RXNMapper、GraphormerMapper 和 LocalMapper 在四個不同源上檢查的手動對映反應的 AMM 結果。(來源:論文)

圖片

更重要的是,LocalMapper 自信預測的資料集中 97% 的反應的 AAM,表現出 100% 的預測準確率。並且在不同的分佈外測試集中也觀察到類似的結果。

研究人員期望所提出的 LocalMapper 可用於為未來的下游反應預測模型提供精確的反應 AAM,並有利於化學界瞭解更多有關反應資料集的統計見解。

GitHub 地址:https://github.com/snu-micc/LocalMapper

注:封面來自網路

相關文章