Google研究 | 使用機器學習預測分子性質
文 | Google Brain 團隊研究員 George Dahl
最近,在化學行業湧現了許多激動人心的機器學習 (ML) 應用,特別是在解決化學檢索問題方面,從藥物發現和電池設計到尋找更好的 OLED 和催化劑,層出不窮。歷史上,化學家一直使用薛定諤方程式的數值逼近(例如密度泛函理論 (DFT))來進行此類化學檢索。
然而,計算這些近似值的開銷限制了檢索的規模。為了實現更大規模的檢索,幾個研究小組建立了機器學習模型,使用 DFT 生成的訓練資料(例如 Rupp et al. 和 Behler and Parrinello)預測化學性質。在開展前述工作之前,我們一直使用各種現代機器學習方法來開發 QM9 基準庫,這是一組公開的分子庫,其中提供了根據 DFT 理論計算得出的各種分子的電子、熱力學和振動特性。
我們最近釋出了兩篇論文,介紹了我們在此領域的研究成果,這些成果源自 Google Brain 團隊、Google Accelerated Science 團隊、DeepMind 和巴塞爾大學的密切合作。第一篇論文介紹了一種新的分子影像製作方法以及一種評估開發 QM9 基準庫所用的各種機器學習方法的系統化評估方法。在對此基準庫嘗試過許多現有方法之後,我們曾致力於改進最有希望的深度神經網路模型。
其結果是,我們發表了第二篇論文“量子化學的神經訊息傳遞”(Neural Message Passing for Quantum Chemistry),其中介紹了一個稱為訊息傳遞神經網路 (Message Passing Neural Networks, MPNN) 的模型系列,其定義足夠抽象,能夠包含許多之前圖形對稱性保持不變的神經網路模型。我們在 MPNN 模型系列中開發出新的模型,其表現大大優於 QM9 基準庫的所有基準方法,在某些指標上提升了將近 4 倍。
從機器學習的角度來看,分子資料如此有趣的原因之一是:一個分子的自然表示形式是以原子作為節點,以化學鍵作為邊繪製而成的分子結構圖。利用資料中的內在對稱性的模型往往更具普遍性,腦回神經網路之所以能在圖片處理方面取得成功,部分是因為它們能夠吸收我們之前關於影象資料不變性的知識(例如,一隻狗的照片移到左邊後仍然是一隻狗的照片)。對於處理圖形資料的機器學習模型來說,圖形對稱性不變是一個特別有用的特性,這方面也有許多有趣的研究(例如 Li et al.、Duvenaud et al.、Kearnes et al.、Defferrard et al.)。然而,儘管取得了這些進展,但仍有大量工作要做。我們希望為化學(和其他)應用找到這些模型中的最佳模型並找出文獻中建議的不同模型之間的關聯。
我們的 MPNN 為預測 QM9 中所有 13 種化學性質建立了新的模型標杆。對於這組特別的分子,我們的模型可以足夠準確地預測出其中 11 種性質,這些預測對化學家而言很可能非常有用,並且,我們的速度比使用 DFT 模擬預測最多要快 30 萬倍。然而,在 MPNN 能夠對化學家產生真正的實用價值之前,我們還有大量工作要做。特別是,使用 MPNN 分析的分子型別還遠遠不夠,必須比 QM9 中現有的分子型別還要多得多(例如,分子量更大或者有更多型別的重原子的分子)。當然,即便是採用真實的訓練集,即便推廣到大相迥異的分子,也仍然不夠。要克服這兩大挑戰,就需要在普遍化(這也是機器學習研究的核心)等問題上取得突破。
預測分子特性是一個非常重要的問題,一方面,先進的機器學習技術有助於推動該課題的研究,另一方面,該課題也為學習演算法提出了一些有趣的基本研究挑戰。最終,此類預測可以幫助設計造福人類的新藥物和新材料。在 Google,我們非常重視傳播我們的研究成果,幫助培訓機器學習領域的新研究人員。因此,我們非常高興地見到:我們的 MPNN 論文的前兩位作者都是 Google Brain 成員。
瞭解更多細節,檢視文內所有連結,請點選文末“閱讀原文”。
推薦閱讀:
引入tf-seq2seq:TensorFlow中開源序列到序列框架
Google研究 | 聯合學習:無需集中儲存訓練資料的協同機器學習
GDE專欄 | 一個完整的示例:Android Things和TensorFlow能擦出怎樣的火花?
點選「閱讀原文」,檢視文內所有連結
相關文章
- 【機器學習】線性迴歸預測機器學習
- 精確預測相分離蛋白質,同濟&中國科學院機器學習預測器PSPire機器學習
- 原子、分子、複合物級性質預測均最佳,清華分子預訓練框架登Nature子刊框架
- 使用機器學習預測房價(附連結)機器學習
- 機器學習輔助分子晶體特性預測,新材料發現可走「捷徑」機器學習
- 在 Airbnb 使用機器學習預測房源的價格AI機器學習
- 機器學習之分類:預測偏差機器學習
- 機器學習 | 基於機器學習的推薦系統客戶購買可能性預測分析機器學習
- 機器學習實戰 | 性別預測模型的構建與優化機器學習模型優化
- Python機器學習筆記:使用Keras進行迴歸預測Python機器學習筆記Keras
- 機器學習之迴歸分析--預測值機器學習
- 深度學習預測蛋白質-蛋白質相互作用深度學習
- 機器學習遇見生物學:詳解蛋白質摺疊預測中的演算法機器學習演算法
- 機器學習股票價格預測從爬蟲到預測-預測與調參機器學習爬蟲
- 使用pmml跨平臺部署機器學習模型Demo——房價預測機器學習模型
- 機器學習專案---預測心臟病(二)機器學習
- 機器學習專案---預測心臟病(一)機器學習
- 機器學習(二):理解線性迴歸與梯度下降並做簡單預測機器學習梯度
- 利用深度學習和機器學習預測股票市場(附程式碼)深度學習機器學習
- Google研究主管:非技術專家如何利用機器學習解決問題Go機器學習
- Python機器學習 預測分析核心演算法1Python機器學習演算法
- 機器學習股票價格預測初級實戰機器學習
- 基於機器學習預測Airbnb的城市旅行成本機器學習AI
- 分子大模型升級,Uni-Mol+加速量子化學屬性預測,深勢科技、北大研究登Nature子刊大模型
- 騰訊量子實驗室發起 Alchemy 競賽,推動分子性質的 AI 預測研發AI
- 瀏覽器中的機器學習:使用預訓練模型瀏覽器機器學習模型
- 機器學習--有監督學習--分類演算法(預測分類)機器學習演算法
- 採用 Python 機器學習預測足球比賽結果Python機器學習
- 機器學習:線性迴歸機器學習
- 機器學習股票價格預測從爬蟲到預測-資料爬取部分機器學習爬蟲
- [機器學習實戰-Logistic迴歸]使用Logistic迴歸預測各種例項機器學習
- 總結機器學習優質學習文章Top50!機器學習
- 機器學習實戰專案-預測數值型迴歸機器學習
- 機器學習預測2018年世界盃冠軍隊機器學習
- 2018年大資料,機器學習和人工智慧預測!大資料機器學習人工智慧
- Kaggle機器學習入門實戰 -- Titanic乘客生還預測機器學習
- 機器學習增強的電子商務平臺使用者行為預測機器學習
- 【機器學習】李宏毅——Explainable ML(可解釋性的機器學習)機器學習AI
- 相信你的模型:初探機器學習可解釋性研究進展模型機器學習