本文主要來源於 Annual reviews 最新發表材料領域的 2020 年度綜述 [1]。機器學習利用化學和材料資料正在改變材料發現和設計領域,但要充分利用機器學習演算法、工具和方法仍需要大量工作。在這裡,本文回顧了該領域迄今為止的成就,主要關注三個方面:
1)學會觀察(機器學習如何表示用於人工智慧模型生產的材料資料);2)學會評估(一旦材料資料被正確地表示出來,它們如何可以被用來構建強大的模型);3)學會搜索(一旦具備能夠在資料的基礎上估計材料的屬性的能力,我們就可以利用這種能力建立強大的和創造性的搜尋策略)。
將機器學習應用到分子領域上,首先需要特定方法來表示分子並且適合於演算法的輸入或生成。分子表示形式通常是張量的數字或字串的字元,並且已經有研究證明選擇合適的分子表示往往比學習演算法的選擇有更大的影響。
分子表示通常為手工製作的一維描述符集合,每個描述符都是單一的彙總統計(例如,原子數、鍵數、分子量、實驗或計算性質),或者更系統的分子結構表示法。
為了有效地捕獲材料資訊,一個關鍵的要求是遵守已知的控制分子種類的物理原理。正確表徵分子和材料必須遵循以下原則:
1.1 傳統分子指紋表示
二維表示法編碼一個分子圖,該分子圖由原子的恆等式以及連線這些原子的鍵合所確定。由於沒有座標編碼,二維表示法對平移和旋轉是隱式不變的,因此剩下的對稱考慮就是原子和鍵的順序。
常用的表示方法有:simplified molecular input line entry system(SMILES), International Chemical Identifier(InChI),the Molecular Access System(MAACS),extended connectivity fingerprints(ECFP)。
SMILES 與 InChI 都是用少量字元表示結構資訊的重要方法。SMILES 是透過遍歷和記錄重原子在分子圖的修改版本中出現的,其中環被破壞了,原子的斷裂鍵被標註。相比之下,InChI 只是分子式、連通性、結合氫、電荷、立體化學和同位素的分層說明,並不是不變的原子索引的排列。
另一種表示方法是使用二進位制向量,也稱為化學指紋。許多這樣的編碼已經被開發成一種根據特定子組的存在或不存在來搜尋分子資料庫的方法。MAACS 金鑰是一個 166 維的二進位制向量,其中每個元素或金鑰對應於某些分子特徵,比如某個特定官能團的存在。
ECFP 屬於 circular fingerprints,該族構成了最廣泛使用的基於張力的拓撲表示之一。在構建 ECFP 表示時,在特定截止半徑內透過每個原子的路徑數將針對每個原子進行編碼,並透過雜湊表對結果進行壓縮,以符合預定義的長度。與由 MAACS 鍵指定的預定分子特徵相比,ECFP可以系統地表徵每個原子。
由於 ECFP 中存在雜湊和 MAACS 金鑰捕獲的固定數量的分子特徵,兩者都不能構成一個完整的表示,從而不能對其編碼的分子圖進行完全重構。這與 SMILES 和 InChI 形成了對比,因此它們更適合於迴歸和分類問題。
雖然分子圖的編碼對於旋轉和平移是隱式不變的(因為不存在自由度),但如果試圖獲取完整的原子座標時,情況就不一樣了。因此,考慮如何實現對稱不變性以尋找更表達的三維分子表示是一個關鍵問題。
Parrinello 透過一些徑向和角對稱函式編碼分子內的原子。另一個早期的三維分子表示法是由 von Lilienfeld 研究小組發展起來的,受到了分子哈密頓量的啟發,稱為庫侖矩陣,這是一個矩陣表示,其中非對角元素對應於原子對之間的庫侖核排斥項,而對角元素編碼原子電荷。
這種設計的一個缺點是缺乏置換不變性。為了克服這一缺點,並提高機器學習方法用於從頭計算資料的準確性,von Lilienfeld 小組進行了進一步的工作,從而產生了一系列表示:
1.2 基於神經網路的分子指紋表示
另一個常用的分子表示方法是使用深度神經網路學習。從某種意義上說,這把發現的任務交給了演算法本身,儘管代價是把研究人員推向尋找有效網路架構的問題。
Duvenaud 等人 [2] 引入了編碼分子圖的神經指紋。Duvenaud 等人受到 ECFP 工作原理的啟發,採用了之前用於從原始影像中逐步提取高階結構來學習影像表示的卷積神經網路架構,最後透過從原始圖結構中逐步提取高階結構來學習分子表示。Kearnes 等人 [3] 對這一最初的工作進行了補充,他們增加了更復雜的處理置換不變性的方法,並在訊息傳遞框架內進一步推廣[4]。
Behler & Parrinello 在其神經網路電位 ANI 中擴充套件了 Parrinello 對稱函式,以構建單原子原子環境向量作為分子表示,從而更豐富地嵌入區域性原子資訊 [5]。另一種方法被稱為張量場網路,它對點雲表示 [6] 進行操作,並進行封閉模擬深度張量網路是在原子間距離矩陣與原子恆等式向量相結合的基礎上執行的。神經指紋是透過嘗試解決一個特定的推理任務而產生的。這樣,最終的指紋表達了適合於解決推理問題的分子資訊。
二、學會評估
材料設計和發現的關鍵是確定結構/組成(structure/composition)、效能(properties)、合成/加工(synthesis/processing)和效能( performance)這四種材料元素之間的相互關係,而這四種材料元素通常用 Flemings’s tetrahedron 來描述,這四種元素在材料界以 QSPRs 或 PSP 命名,並且一直是材料設計的核心。
QSPRs 的高維、複雜性質創造了一個巨大的搜尋空間,機器學習的使用使其有效地增強導航和線性/非線性對映方法,以更低的計算成本找到或設計新材料。機器學習在 QSPR 模型的開發上有廣泛的應用,當基於物理的模型不存在或者當我們需要在材料建模中連線不同的時間尺度或長度尺度時,它特別有用。
在實驗室中觀察到的材料效能與在模擬世界中觀察到的材料效能之間的差異只能透過理論、計算和實驗之間的密切相互作用來解決。材料發現不僅是新材料的發現,而且是對現有材料的改進。因此,機器學習能夠提供透過 QSPR 估計任務提高材料發現和開發速度的能力。下面會簡要討論一些學習晶體結構、微觀結構和材料特性的任務。
材料性質預測從確定其化學成分和晶體結構開始。在 20 世紀 80 年代早期,有大量關於使用材料描述符的討論。例如,Zunger‘s 早期利用贗勢軌道半徑繪製結構分離圖(即分離不同結構型別的穩定性圖)有助於預測已知 ab 型二元化合物的穩定晶體結構。
這種用於結構識別的分類方法已經擴充套件到基於資料探勘的 QSPR 對映 [9],最近,類似的概念也被應用到深度神經網路方法中。因此,兩個經典描述符相關晶體穩定和綜合性,Pauling 電負性和 Shannon 離子半徑被用作構造深層神經網路預測密度泛函理論(DFT)形成的能量[10]。
材料的微觀結構等觀察物件不僅與材料的效能有關,而且與材料的合成後加工過程有關,微觀結構-效能空間的對映是一項複雜的任務。因此,確定所需材料效能的定製或最佳微觀結構仍然是逆向設計的主要挑戰。
最近,McCue 等人 [11] 對已發表的奈米孔金電子顯微影像使用資料探勘輔助自動影像分析來探索 PSP 之間的關係。為了識別關鍵的微觀結構表徵,Wodo 和他的同事 [12] 開發了一種透過將微觀結構處理為圖形的緊湊微觀結構效能對映的替代方法。
根據 Agrawal 及其同事最近的研究 [13],深度神經網路(如生成對抗網路(GANs)可以學習潛變數和微觀結構之間的對映,從而透過最佳化潛變數獲得具有目標材料效能的最佳微觀結構。
化學技術的最新進展,包括用於繪製化學影像的x射線光電子能譜,用於識別晶界型別的電子背散射衍射,以及用於研究複合中心分佈的陰極發光,產生了大量與材料微觀結構相關的複雜資料。此外,當微觀結構響應與外部環境(如應力)相聯絡時,影像資料的複雜性變得更為重要。為了處理複雜的形態和晶體資料(如晶粒體積、晶粒形狀和晶粒的形態和空間排列方向分佈),材料界很多研究透過機器學習計算來識別或開發 QSPRs。
其中值得注意的是,一種基於深度神經網路的方法在高解析度電子顯微鏡方面應用廣泛。藉助神經網路,例如,從掃描透射電子顯微鏡資料可以識別晶格中原子的位置和型別的原子物種實時檢測和分類的缺陷 [14]。訓練卷積神經網路(CNNs)在高解析度透射電子顯微鏡下對原子結構進行分類。
Kalinin 和他的同事 [15] 利用深度神經網路進行實時相位分析(即相位形成和演化對映)的有效性,從而自動識別來自電子和掃描探測顯微鏡的原子分辨影像中的對稱類。
除了作為檢測結構特徵的工具,這種深度學習演算法還可以應用於旨在增強測量的魯棒性的自動高解析度電子顯微鏡校準。例如,Xu &LeBeau [16] 展示瞭如何從 CNN 自動分析的位置平均收斂束電子衍射圖中提取電子顯微鏡引數。
自動化以及自主的材料發現和設計過程對於加速結果和最小化人為錯誤是至關重要的,最近在這一領域有許多活動。好的例子包括自動分子和合金設計,自動理論計算,如從頭算計算,以及具有主動學習的全自動機器學習潛力。
機器人現在被用於自主組裝範德瓦爾斯超晶格等材料。原子尺度的自主製造(即原子製造過程)是透過像 CNN 這樣的深度學習來實現的。在這裡,深度學習被用來識別表面特徵來精確地繪製原子結構。
2.1 資料的重要性
機器學習的能力本質上與資料集的質量有關。不幸的是,材料和化學領域經常使用數量有限的資料庫或小型資料集。與由理論計算或模擬建立的材料資料庫相比,包含合成程式歷史或加工條件的實驗資料庫仍然太少。克服有限資料問題的一種方法是透過使用大量資料訓練的模型來進行有限資料的新任務的遷移學習。
例如,遷移學習在微觀結構重建領域變得越來越流行。這主要是因為該研究的目標是在原始結構非常有限的資訊下構建統計上等價的微結構。
遷移學習的一個侷限是,它需要一個非常訓練有素的模型來應用於特定的目標任務。其他克服有限資料問題的方法包括元學習、神經網路圖靈機、貝葉斯框架、快速代理機器學習模型和受維度分析和尺度律約束的機器學習模型。
此外,來自不同來源的異構資料集或分散資料在材料和化學領域很常見。雖然資料庫或分散的資料集的整合有利於更好地理解 QSPRs,但可能會錯過重要的特性。最近的一篇論文提出了一種方法,即先對來自不同來源的資料進行單獨建模,然後再採用堆疊的方法整合機器學習的多模型層和預測層在一起 [17]。
2.2 機器學習演算法在材料設計中的應用
為了有效地解決這個問題,材料設計師經常使用高維視覺化技術。這些技術不僅提供了低維的視覺表示,而且闡明瞭變數之間的關係。Suh 等人 [19] 演示了各種視覺化技術對高通量實驗生成的 n 維資料的作用。他們向高吞吐量實驗社群介紹了幾種技術,包括並行座標、徑向視覺化對映、熱圖和字形圖。
最近,Rickman [20] 使用平行座標建立了材料屬性圖表,顯示了不同材料類之間的屬性相關性。利用降維演算法在低維空間中對高維資料集的結構進行識別和視覺化。傳統的基於最小二乘損失的譜分解演算法的一個例子是主成分分析。
主成分分析是一種線性降維方法,它透過尋找資料中方差最大的方向,儘可能多地保留原來的高維資料結構。這種方法是處理各種型別材料資料的主要降維技術,如粉末 x 射線衍射模式[21]。儘管大多數 QSPRs 是非線性表達的,但試圖非線性地捕獲高維資料結構,如關注特徵之間區域性距離的流形學習,在材料問題上是相當罕見的。
QSPRs 的流形學習的一個很好的例子是利用擴散圖方法結合層次聚類來學習在銅銦鎵二烯化太陽能電池中製備鋁摻雜 ZnO 層的最優薄膜工藝條件 [22]。最近,類似型別的流形學習,如 t 分佈隨機鄰居嵌入(t-SNE)演算法,在以非線性方式獲得低維表示方面變得越來越普遍。
t-SNE 演算法在識別高維資料的全域性結構的同時,注重保持高維資料的區域性距離。例如,Zakutayev 等人 [23] 演示了 t-SNE 演算法對高通量實驗材料資料庫中最常見成分的視覺化能力。
材料設計中的深度學習的目標是自動識別 QSPRs 中輸入和輸出之間的複雜關係,使其在計算上比傳統學習演算法更高效。例如,CrystalGAN 是一種基於 GAN 的結構,透過使用現有的二進位制資訊自動生成化學穩定的晶體結構,如新的三元晶體結構 [24]。
三、學會搜索
透過使用資料驅動技術來精確處理建模過程和屬性的能力是強大的和可擴充套件的,當我們建立一個模型,卻從不更新它時,這個模型就會被某個特定時間點的知識和相關偏見所凍結,從那一刻起,它就開始變得陳舊。
材料發現越來越被視為一個主動學習問題,隨著新資訊的流入,模型不斷更新。這本身就提出了一個有趣的挑戰:如何確保以這種方式構建的模型本身不會因用於確定收集哪些資料的方法而產生偏差?在機器學習的世界裡,這被稱為探索-利用交換。
收集資料的純粹探索性方法(有時稱為多樣性驅動方法)將透過考慮儘可能廣泛的資料點來構建最普遍適用的模型。雖然這個過程不太容易產生偏差,但結果模型在任何特定情況下通常都不太具有預測性。
3.1 貝葉斯最佳化
在得到該資料點後,貝葉斯模型被重新修改以包含新的資料,然後重複這個迴圈,直到使用者耗盡預算或者獲取函式變為零(表明取樣資料沒有優勢)(圖2)。
3.2 強化學習
強化學習是人工智慧的一個子領域,它的目標是學習如何做出決策,在一段時間內使回報最大化。在強化學習正規化中,智慧體學習如何透過與環境的互動來最大化這種獎勵。與貝葉斯最佳化相比,強化學習更適合被視為控制過程的學習,而不是嚴格地對其進行最佳化。
3.3 生成模型
生成模型不是預測已知輸入(材料)的行為,而是生成被預測具有強大屬性的新材料。最流行的生成方法是變分自編碼器(VAEs)和 GANs ,其中前者在分子和材料科學領域有更多的應用。
VAEs 是一種神經網路,經過訓練後可以重現輸入,但它分為兩部分:第一部分是一個編碼器,它接受基表示並學習有效的神經指紋,以及第二部分是解碼器,它可以學習如何從神經指紋中重建分子。神經指紋所跨越的空間稱為潛在空間。經過訓練後,利用解碼器對潛在空間進行隨機取樣(或搜尋),可以生成新的分子。
GANs 在網路的基礎上執行,這些網路又分為兩個元件。GANs 沒有經過訓練來重現分子的編碼器和解碼器,而是透過一個生成器和鑑別器來操作。後者接收來自生成器的輸出以及實際分子訓練來區分這兩種,前者得到一個初始向量,扮演的角色是潛在的空間和訓練有素的產生輸出混淆鑑別器。
四、展望
隨著機器學習輔助材料研究和開發領域的迅速發展,材料和化學界認識到,更多的綜合努力將在推進材料發現和設計過程中發揮重要作用。由於缺乏使用複雜模式在資料集或資料庫之間交換資料的健壯方法或標準協議,使得資料整合和共享變得困難。
參考文獻
[1] Suh C, Fare C, Warren J A, et al. Evolving the Materials Genome: How Machine Learning Is Fueling the Next Generation of Materials Discovery[J]. Annual Review of Materials Research, 2020, 50.
[2]Duvenaud D K, Maclaurin D, Iparraguirre J, et al. Convolutional networks on graphs for learning molecular fingerprints[C]//Advances in neural information processing systems. 2015: 2224-2232.
[3]Kearnes S, McCloskey K, Berndl M, et al. Molecular graph convolutions: moving beyond fingerprints[J]. Journal of computer-aided molecular design, 2016, 30(8): 595-608.
[4]Gilmer J, Schoenholz S S, Riley P F, et al. Neural message passing for quantum chemistry[J]. arXiv preprint arXiv:1704.01212, 2017.
[5]Behler J, Parrinello M. Generalized neural-network representation of high-dimensional potential-energy surfaces[J]. Physical review letters, 2007, 98(14): 146401.
[6]Schütt K T, Arbabzadah F, Chmiela S, et al. Quantum-chemical insights from deep tensor neural networks[J]. Nature communications, 2017, 8(1): 1-8.
[7]Ramsundar B, Kearnes S, Riley P, et al. Massively multitask networks for drug discovery[J]. arXiv preprint arXiv:1502.02072, 2015.
[8]Fare C J A, Turcani L, Pyzer-Knapp E O. Powerful, transferable representations for molecules through intelligent task selection in deep multitask networks[J]. Physical Chemistry Chemical Physics, 2020.
[9]Suh C, Rajan K. Invited review: data mining and informatics for crystal chemistry: establishing measurement techniques for mapping structure–property relationships[J]. Materials Science and Technology, 2009, 25(4): 466-471.
[10]Ye W, Chen C, Wang Z, et al. Deep neural networks for accurate predictions of crystal stability[J]. Nature communications, 2018, 9(1): 1-6.
[11]McCue I, Stuckner J, Murayama M, et al. Gaining new insights into nanoporous gold by mining and analysis of published images[J]. Scientific reports, 2018, 8(1): 1-11.
[12]Du P, Zebrowski A, Zola J, et al. Microstructure design using graphs[J]. npj Computational Materials, 2018, 4(1): 1-7.
[13]Yang Z, Li X, Catherine Brinson L, et al. Microstructural materials design via deep adversarial learning methodology[J]. Journal of Mechanical Design, 2018, 140(11).
[14]Ziatdinov M, Dyck O, Maksov A, et al. Deep learning of atomically resolved scanning transmission electron microscopy images: chemical identification and tracking local transformations[J]. ACS nano, 2017, 11(12): 12742-12752.
[15]Madsen J, Liu P, Kling J, et al. A deep learning approach to identify local structures in atomic‐resolution transmission electron microscopy images[J]. Advanced Theory and Simulations, 2018, 1(8): 1800037.
[16]Xu W, LeBeau J M. A deep convolutional neural network to analyze position averaged convergent beam electron diffraction patterns[J]. Ultramicroscopy, 2018, 188: 59-69.
[17]Kauwe S K, Welker T, Sparks T D. Extracting knowledge from DFT: experimental band gap predictions through ensemble learning[J]. Integrating Materials and Manufacturing Innovation, 2020: 1-8.
[18]Ouyang R, Ahmetcik E, Carbogno C, et al. Simultaneous learning of several materials properties from incomplete databases with multi-task SISSO[J]. Journal of Physics: Materials, 2019, 2(2): 024002.
[19]Suh C, Sieg S C, Heying M J, et al. Visualization of high-dimensional combinatorial catalysis data[J]. Journal of combinatorial chemistry, 2009, 11(3): 385-392.
[20]Rickman J M. Data analytics and parallel-coordinate materials property charts[J]. npj Computational Materials, 2018, 4(1): 1-8.
[21]Mueller T, Kusne A G, Ramprasad R. Machine learning in materials science: Recent progress and emerging applications[J]. Reviews in Computational Chemistry, 2016, 29: 186-273.
[22]Suh C, Biagioni D, Glynn S, et al. Exploring high-dimensional data space: identifying optimal process conditions in photovoltaics[C]//2011 37th IEEE Photovoltaic Specialists Conference. IEEE, 2011: 000762-000767.
[23]Tabor D P, Roch L M, Saikin S K, et al. Accelerating the discovery of materials for clean energy in the era of smart automation[J]. Nature Reviews Materials, 2018, 3(5): 5-20.
[24]Nouira A, Sokolovska N, Crivello J C. Crystalgan: learning to discover crystallographic structures with generative adversarial networks[J]. arXiv preprint arXiv:1810.11203, 2018.
[25]Jha D, Ward L, Paul A, et al. Elemnet: Deep learning the chemistry of materials from only elemental composition[J]. Scientific reports, 2018, 8(1): 1-13.
[26]Schütt K T, Sauceda H E, Kindermans P J, et al. SchNet–A deep learning architecture for molecules and materials[J]. The Journal of Chemical Physics, 2018, 148(24): 241722.