近年來,機器學習在化學領域的應用正以驚人的速度增長,在材料效能預測、新材料探索與設計等領域也取得了很大進展。但是,機器學習與實驗過程的直接耦合還存在巨大的挑戰。
近日,一個包括美國國家標準與技術研究所(NIST)在內的多機構研究團隊在 AI 研究領域取得了又一項重要研究成果:他們開發出了一種名為 CAMEO 的 AI 演算法,該演算法在不需要科學家額外訓練的情況下,自主發現了一種潛在的實用新材料。利用 CAMEO 演算法實現的 AI 系統,可以有效地減少科學家在實驗室中花費的“反覆”實驗時間,同時最大限度地提高科研效率。
該研究成果以“ On-the-fly closed-loop materials discovery via Bayesian active learning”為題,於 11 月 24 日線上發表在科學期刊《自然-通訊》(Nature Communications)上。
如果一個研究人員想要分析一種材料在不同溫度下的特性,那麼他可能需要在各種不同溫度下進行 N 次試驗。然而,溫度只是材料的一個指標之一,如果在一項實驗中有 5 個指標要分析,每個指標又有 10 個值,那就意味著該研究人員必須進行 10^5 次試驗。
Kusne 表示,對於試驗次數如此多的實驗,研究人員可能會花費幾年甚至幾十年的時間,所以,這樣的實驗,幾乎不可能進行。
CAMEO 演算法的“用武之地”正在於此,CAMEO 可以跳過那些會提供冗餘資訊的實驗,確保每個實驗都可以最大限度地幫助科學家獲取知識和見解,提升他們的理解能力。透過節省實驗時間,可以有效幫助科學家更快實現其目標,也使實驗室的有限資源能夠得到更有效地利用。
那麼,CAMEO 演算法如何實現這一點?
CAMEO 是基於機器學習的一個自學習 AI 演算法,為材料研究領域的探索提供了一種全新的正規化。CAMEO 透過閉環操作來尋找有用的新材料,首先從資料庫中載入材料資料,然後透過貝葉斯機器學習對資料進行分析,預測未知材料的結構和功能特性,並透過主動學習來確定下一步要研究的最有價值的材料。在進行下一輪實驗之前,CAMEO 還可以要求科學家根據過去所執行的實驗經驗,提供材料的晶體結構等資訊。
論文作者之一、馬里蘭大學材料科學與工程教授 Ichiro Takeuchi 表示:“實驗的關鍵在於,我們能夠在一個由多種材料構成的組合庫中啟動(unleash)CAMEO 演算法。” 在通常的組合研究中,陣列中的每一種材料都會被依次測量,以尋找具有最佳效能的化合物。即使使用快速的測量設定,也需要花費很長時間。而有了 CAMEO 演算法,僅需很少量的常規測量就可以找到最佳材料。
Kusne 說:“CAMEO 演算法是無監督的,許多型別的 AI 演算法都需要進行訓練或監督,我們不要求它學習物理規律,而是將它們編碼到 AI 中。這樣一來,就不需要人類再去訓練 AI 模型。”
瞭解材料結構的最佳方法之一是 X 射線衍射法,即使用 X 射線轟擊材料。透過識別 X 射線反射的角度,科學家可以確定原子在材料中的排列方式,從而使他們能夠確定其晶體結構。然而,一次內部 X 射線衍射實驗可能需要一個小時或更長時間。在史丹佛同步輻射光源(SSRL)進行的實驗中,由於快速移動的粒子會發射大量的 X 射線,一臺足球場大小的大型機器以接近光速的速度加速帶電粒子,整個過程可能需要 10 秒鐘。
Kusne 說:“把這個過程想象成製作一份完美的蛋糕,你正在混合各種型別的材料(比如,麵粉、雞蛋或黃油),透過使用各種配方來製作最好的蛋糕。” 而藉助人工智慧,則可以搜尋製作 “配方” 或實驗流程,來確定材料的最佳成分。如此一來,便節省了大量的實驗時間。
CAMEO 透過給定的 177 種潛在的材料進行研究,這些材料涵蓋了大範圍的組成配方。為了獲得這種材料,CAMEO 耗時 10 小時完成了 19 個不同的實驗,相比之下,一個科學家大約需要 90 個小時才能完成同樣多的實驗。
例如,在 DVD 或藍光光碟上,光學對比度允許掃描鐳射透過區分高反射率或低反射率的區域來讀取光碟。研究人員發現,GST467 的光學對比度是 DVD 常用的材料 GST225 的兩倍,較大的對比優勢也使其表現出了明顯優於傳統材料的特性。
GST467 還可應用於用於控制電路中光的方向的光子開關器件,還可以應用於神經形態計算(旨在開發模擬大腦神經元結構和功能的裝置,為新型計算機的出現以及從複雜影像中提取有用資料等其他應用提供可能)。
與類似的機器學習方法不同,CAMEO 演算法不是對大量資料進行機器學習和預測,而是透過關注晶體材料的成分、結構和性質之間的關係,追蹤材料相應功能的結構來源,引導系統發現有用的新化合物。
CAMEO 的一個好處是最大限度地降低了成本,因為在同步加速器設施中進行實驗是需要花費時間和金錢的。研究人員估計,使用 CAMEO 可以將實驗數量減少十分之一,相應地可以將實驗時間縮短十倍。由於人工智慧正在執行測量資料、收集資料,分析資料的過程,這也大大降低了研究人員進行實驗所需的知識量,他們只需關注正在執行的 AI 系統。
CAMEO 的另一個好處是為科學家提供了遠端工作的能力。SLAC 美國國家加速器實驗室的研究員 Apurva Mehta 說:“這掀起了一波科研熱潮,科學家不需要在實驗室中,就可以繼續工作和生產。” 這可能意味著,如果科學家們可以依靠人工智慧在實驗室進行實驗,更加安全地遠端從事傳染性疾病或病毒的研究。
研究人員表示,他們將繼續改進這一 AI 演算法,並嘗試使該演算法可以解決更復雜的問題。Kusne 說:“CAMEO 擁有機器人科學家的智慧,它的構建,是為了以一種非常高效的方式,來設計、執行和學習實驗。”
https://www.nature.com/articles/s41467-020-19597-w