機器學習輔助分子晶體特性預測,新材料發現可走「捷徑」

ScienceAI發表於2021-06-17
長期以來,化學家的目標是想象新分子的化學結構,並能夠預測它在所需應用中的作用。然而,在實踐中,這個願景很難實現,通常需要大量的實驗室工作來合成、分離、純化和表徵新設計的分子,以獲得所需資訊。
最近,勞倫斯·利弗莫爾國家實驗室(LLNL)的研究團隊透過建立機器學習(ML)模型,可以僅從分子的化學結構(如分子密度)預測分子的晶體特性,從而實現了這一願景。預測晶體結構描述符(而不是整個晶體結構)提供了一種推斷材料特性的有效方法,從而加快了材料的設計和發現。
該研究於4.26以題為「Predicting Energetics Materials’ Crystalline Density from Chemical Structure by Machine Learning」發表在《化學資訊與建模雜誌》(Journal of Chemical Information and Modeling)上。
圖片
新分子化合物的發現是一個勞動密集型且成本高昂的「愛迪生式」過程。幾十年來,人們一直希望能夠僅從化學結構和合成之前預測分子化合物的整體結晶特性,以減少新化合物的開發時間。然而,這個目標仍難以實現。
此前,雖然有多種 ML 方法可用於預測分子級特性,包括能級和親脂性,但使用 ML 方法來預測分子化合物的結晶特性的探索較少。
ML 模型精度高、速度快
現在,研究人員證明了ML方法可用於直接學習分子化合物的化學結構與晶體特性之間的關係,並在沒有晶體結構資訊的情況下進行預測。
圖片研究新分子化合物的典型過程和勞動力示意圖(藍色箭頭)
綠色突出顯示的是機器學習可以加速新分子開發的各種可能的捷徑
該研究集中在預測一類稱為高能炸藥 (high explosives,HE) 的高能材料的晶體密度上,因為分子 HE 的密度與爆速直接相關,這是評估分子 HE 候選物時的重要效能指標。此外,新 HE 的開發和測試是特別危險的工作,如果及早確定優先順序並將待合成和研究的樣品最小化,將特別受益。
圖片ML 模型框架
目前獲得密度近似值的最佳方法是透過基於量子力學的密度泛函理論 (DFT) 計算。然而,迄今為止發表的方法仍然沒有提供準確的預測。
「與之前基於 ML 的方法相比,我們最傑出的 ML 模型之一能夠更準確地預測高能和類高能分子的晶體密度。」LLNL 應用數學家、論文的共同第一作者 Phan Nguyen 說 。
LLNL電腦科學家、共同第一作者Donald Loveland表示:「與 DFT 相比,ML 模型在計算精度上更具競爭力,同時所需的計算時間也很短。」
MPNN 模型效能最佳
使用已發表的晶體密度 HE 相關資料集和幾種密度迴歸模型:隨機森林(RF)、偏最小二乘迴歸(PSLR)、訊息傳播神經網路 (MPNN)和支援向量迴歸(SVR),評估了各種特徵組合和方法的擬合優度,以預測劍橋結構資料庫(Cambridge Structural Database,CSD) 中 HE 相關分子的密度。
圖片預測密度與真實密度

研究表明,使用帶有 RF、PLSR 和 MPNN 的 RDKit 的方法比基線 E3FP/SVR 方法的效能更好,併產生接近真實密度值的密度預測。基於訊息傳播神經網路 (MPNN) 的模型的效能表現最佳,其R2值為 0.914,在預測結晶密度方面優於當前最先進的方法。儘管像 MPNN 這樣的基於神經網路的方法有其自身的缺點(即它們的計算成本高,模型複雜性阻礙了人類的可解釋性),但當適當的手工特徵尚未開發或識別時,此類方法可能特別適用。

加速新材料發現和最佳化
LLNL 的高爆應用設施 (HEAF) 的成員已經開始利用該模型的網路介面,旨在發現新的不敏感的高能材料。透過簡單地輸入分子的 2D 化學結構,HEAF 化學家能夠快速確定這些分子的預測結晶密度,這與潛在的能量效能指標密切相關。
「我們很高興看到我們的工作成果應用於實驗室的重要任務。這項工作必將有助於加速新材料的發現和最佳化,」LLNL 材料科學家、該專案首席研究員 Yong Han 說。
材料科學部門的後續工作將 ML 模型與生成模型結合使用,快速有效地搜尋大型化學空間,以尋找高密度候選物。
該團隊將繼續尋找實驗室感興趣的新特性,其願景是為材料科學家提供一套用於研究的預測模型。

論文連結:https://pubs.acs.org/doi/10.1021/acs.jcim.0c01318

參考內容:https://phys.org/news/2021-06-machine-aids-materials.html

相關文章