機器學習指導催化劑設計,提高反應的產率

ScienceAI發表於2022-05-27

編輯/綠蘿

準確識別催化活性的描述符對深入理解催化作用,以及為催化劑篩選奠定基礎至關重要。然而,常用方法的可預測性和準確性低。

近日,美國紐約州立大學石溪分校(SUNY SB)和布魯克海文國家實驗室(BNL)的化學家開發了一種新的機器學習 (ML) 框架,該框架可以鎖定多步化學轉化的哪些步驟應該進行調整以提高生產率。該方法可以幫助指導催化劑的設計。

該研究以「Enhanced descriptor identification and mechanism understanding for catalytic activity using a data-driven framework: revealing the importance of interactions between elementary steps」為題,發表在《Catalysis Science & Technology》上。

該論文第一作者 Wenjie Liao 說:「我們的目標是確定反應網路中的哪個基本步驟或哪個步驟子集控制催化活性。」

以銅基催化劑上的 CO 加氫制甲醇為例,該反應由七個相當簡單的基本步驟(基元反應)組成。該團隊開發了使用銅基催化劑分析 CO 轉化為甲醇的方法。

領導這項工作的化學家 Ping Liu 說:「我們使用這個反應作為我們的 ML 框架方法的一個例子,但是你可以將任何反應放入這個框架中。」

圖片

將多步化學反應想象成具有不同高度的山丘的雲霄飛車。每個山丘的高度代表從一個步驟到下一個步驟所需的能量。為了加快整體反應,催化劑必須針對影響最大的一個或多個步驟。

傳統上,尋求改善這種反應的科學家會計算每次改變一個活化障礙可能會如何影響整體生產率。這種型別的分析可以確定哪個步驟是「限速」的,哪些步驟決定了反應的選擇性——也就是說,反應物是生成期望的產物,還是透過其他途徑生成不想要的副產物。

但是,據 Liu 說,「這些估計結果非常粗略,對於一些催化劑組有很多錯誤。這對催化劑設計和篩選非常不利,而這正是我們正在努力做的事情。」

新的機器學習框架旨在改進這些估計,以便科學家能夠更好地預測催化劑將如何影響反應機制和化學品產量。

「現在,我們不是一次解決一個障礙,而是同時解決所有障礙。我們使用機器學習來解釋該資料集。該方法提供了更可靠的結果,包括反應中的各個步驟如何協同工作。」 Liao 說。

在這裡,研究人員開發了一種替代方法,該方法遵循完善的從資料中提取知識的框架,以提高描述符識別的準確性和效率。還採用了常用的「速率控制程度」(DRC) 分析方法進行比較。這種新方法利用了全域性敏感性分析中的代理模型和機器學習(ML),與正交多項式函式等傳統代理模型相比,ML 可以訪問一系列靈活的非引數迴歸模型,提供有效的資料驅動函式逼近。

結果表明,新方方法比現有的基於尺度關係和導數的方法要準確得多,能夠大大提高描述符識別和速率預測的準確性。更重要的是,它還可以透過評估代理模型進行動力學分析計算成本的增加可以忽略不計,因此可以提取更好的機制理解和最終設計指南。

構建模型

科學家們首先構建了一個資料集來訓練他們的機器學習模型。該資料集是基於 DFT 計算的活化能,透過反應的七個步驟,將原子的一種排列方式轉變為另一種排列方式。然後,科學家們進行了基於計算機的模擬,以探索如果他們同時改變所有七個啟用障礙會發生什麼——一些上升,一些下降,一些單獨,一些成對。

「我們包含的資料範圍是基於對這些反應和催化系統的以往經驗,在有趣的變化範圍內,這可能會給你帶來更好的效能。」Liu 說。

透過模擬 28 個「描述符」的變化——包括七個步驟的活化能,以及一次改變兩個步驟的成對步驟——該團隊生成了一個包含 500 個資料點的綜合資料集。該資料集預測了所有這些單獨的調整和成對的調整將如何影響甲醇生產。然後,該模型根據 28 個描述符在推動甲醇產量方面的重要性對它們進行評分。

「我們的模型從資料中 [學習],並確定了它預測將對生產產生最大影響的六個關鍵描述符。」Liao 說。

在確定了重要的描述符之後,科學家們只使用這六個「活躍」描述符重新訓練了 ML 模型。這種改進的 ML 模型能夠完全基於這六個引數的 DFT 計算來預測催化活性。

圖片

圖示:kMC-在訓練集、測試集和金屬-Cu(111)(M = Au, Cu, Pt, Pd, Ni)上模擬甲醇轉換頻率(TOF)和改進 ML 模型預測的值。

雖然描述符的數量從 28 個大幅減少到 6 個,但在訓練集和測試集中,RMSE 測量的模型精度甚至比初步模型略有提高,表明刪除的描述符大多是非資訊性的。

「你不必計算整個 28 個描述符,現在你可以只計算 6 個描述符,得到你感興趣的甲醇轉化率。」Liu 說。

為了確認所選描述符的有效性,從重新訓練的模型中一次刪除一個。結果表明,每個有效描述符的刪除導致測試集中的預測準確度大幅下降。有趣的是,去除歸一化二階描述符後的準確度損失甚至大於去除一階描述符,這表明包含所有六個描述符是必要的,並且歸一化二階描述符對於實現高可預測性比一階描述符更重要。

圖片

圖示:刪除指示的描述符後,由測試集中的 RMSE 測量的精度損失。

該團隊表示,他們還可以使用該模型來篩選催化劑。如果他們可以設計一種催化劑來提高六個活性描述符的值,那麼該模型可以預測最大的甲醇生產率。

瞭解機制

當研究小組將模型的預測與催化劑的實驗效能以及各種金屬與銅的合金的效能進行比較時,預測與實驗結果相符。將 ML 方法與以前用於預測合金效能的方法進行比較表明,ML 方法要優越得多。

這些資料還揭示了許多關於能壘變化如何影響反應機制的細節。特別有趣和重要的是,反應的不同步驟如何協同工作。例如,資料表明,在某些情況下,僅在限速步驟中降低能壘本身並不能提高甲醇產量。但是,調整反應網路中更早一步的能壘,同時將限速步驟的活化能保持在理想範圍內,會增加甲醇產量。

「我們的方法為我們提供了詳細的資訊,我們可能可以用來設計一種催化劑,很好地協調這兩個步驟之間的相互作用。」Liu 說。

但 Liu 對將這種資料驅動的 ML 框架應用於更復雜的反應的潛力感到最興奮。

Liu 說:「我們使用甲醇反應來演示我們的方法。但它生成資料庫的方式,以及我們訓練 ML 模型的方式,以及我們如何根據每個描述符函式的作用來確定其重要性的整體權重的方式,這很容易應用於其他反應中。」

論文連結:https://pubs.rsc.org/en/content/articlelanding/2022/CY/D2CY00284A

參考內容:https://phys.org/news/2022-05-machine-framework-ids-catalysts.html

相關文章