從預測風暴到設計分子,微軟的 AI 基礎模型如何加速科學發現

ScienceAI發表於2024-10-09

圖片

編輯 | ScienceAI

人們總是在尋找規律來解釋宇宙,並預測未來。俗話說,「朝霞不出門,晚霞行千里」,人們常常用它來預測天氣。

AI 非常擅長發現模式並進行預測。現在,微軟研究人員正在嘗試將「基礎模型」應用於科學領域。

材料科學、氣候科學、醫療保健和生命科學等科學學科有望透過 AI 取得進步。專家表示,針對這些學科量身定製的基礎模型將加快科學發現的程序,使他們能夠更快地創造出實用的東西,如藥物、新材料或更準確的天氣預報,同時也能更好地瞭解原子、人體或地球。

「AI 是你工具箱中可以為你提供支援的工具,」微軟研究院 AI for Science 實驗室的合夥人兼副主任 Bonnie Kruft 說。「我們的理念是,專注於科學特定的模型,而不是語言特定的模型。我們看到了這個絕佳的機會,可以超越傳統的基於人類語言的大型模型,進入一個新的正規化,利用數學和分子模擬建立一個更強大的模型,用於科學發現。」

圖片

AI 的進步使得人們可以透過簡單的對話提示來策劃聚會或生成 PPT,或立即獲得他們錯過的會議的摘要。

現在,微軟研究人員正在發現這些相同的 AI 架構和方法如何能夠推動科學發現領域的進步。

傳統上,科學發現涉及提出假設、進行測試、多次迭代以進行調整,直到找到解決方案或重新開始,這是一個淘汰無效方法的過程。相比之下,一些基礎模型則顛倒了這一過程,它們不是消除而是構建。科學家可以向基礎模型提供引數,例如他們想要的特性,而模型則可以預測,例如哪些分子組合可能有效。與其在稻草堆中尋找一根針,模型會直接建議如何製造針。

在某些情況下,這些基礎模型也被設計為能夠理解自然語言,這使得科學家們編寫提示變得十分容易。例如,為了尋找一種新的材料,科學家們可能會指定他們想要一種穩定的分子(不會分解),不具有磁性,不導電,也不稀有或昂貴。

LLMs 是基於文字(單詞)進行訓練的,但微軟研究人員一直在開發的旨在推進發現的基礎模型主要基於科學語言進行訓練,而不僅僅是科學教科書和研究報告,還包括從解決物理或化學方程式中產生的大量資料。

圖片

基礎模型的應用都很廣泛,材料模型並不是試圖發現一種材料,而是多種材料,大氣模型不僅僅是預測降雨,還包括汙染等其他現象。這種多面性是將 AI 模型定義為基礎模型的關鍵。目標是最終將多個模型融合在一起,從而建立更廣泛的模型,因為在其他領域,更廣泛、更多樣化的模型比更狹窄的模型表現更好。

用於新材料發現的 MatterGen

發現新材料似乎是一個狹窄的領域,但事實上,它是研發的一大重點,因為材料種類繁多——合金、陶瓷、聚合物、複合材料、半導體,而且原子可能組合成新分子的數量達數十億。新材料對於減少碳排放的影響以及找到危害環境或健康的材料的安全替代品至關重要。

微軟研究院的 MatterGen 基礎模型「實際上可以直接生成滿足你的設計條件的材料」,英國劍橋微軟研究院首席研究員 Tian Xie 說。科學家不僅可以告訴 MatterGen 他們想要創造的材料型別,還可以規定機械、電氣、磁性和其他特性。

「它為材料科學家提供了一種方法,讓他們可以針對他們想要設計的材料型別提出更好的假設。」Tian Xie 說。

圖片

圖示:使用 MatterGen 進行無機材料設計。

論文連結:https://arxiv.org/abs/2312.03687

Tian Xie 說,這比過去的方法更先進,因為 AI 在生成材料方面的效率比篩選數百萬種潛在組合以找到符合科學家標準的組合高出三到五個數量級。MatterGen 從科學家的標準開始構建解決方案,而不是從每一種可能性開始,一遍又一遍地篩選,直到剩下少數符合科學家標準的潛在組合。Tian Xie 說,這比在實驗室裡透過反覆試驗創造新材料要高效得多,也更經濟,儘管合成新材料候選物的實驗室工作是必要的。

MatterGen 是一種擴散模型,是一種已用於影像建立工具的 AI 架構。MatterGen 不是生成圖片,而是生成新材料的分子。數十年甚至數百年實驗積累的所有資料都太少,不足以訓練基礎模型。但由於物理和化學等科學領域遵循完善的數學方程,因此多次計算這些方程會產生必要數量的高質量訓練資料。該團隊使用一種稱為密度泛函理論的量子力學公式在高效能運算上執行,為 MatterGen 建立了訓練資料,生成了大約 600,000 個結構。

微軟的 MatterGen 研究團隊正在與合作伙伴合作,驗證其生成的一些材料。未來的領域包括回收聚合物的方法,以及建立可用於碳捕獲的金屬有機框架。「到目前為止,我們專注於無機材料,但在未來,我們希望將其擴充套件到更復雜的材料。」Tian Xie 說。

MatterSim 用於預測新材料將如何發揮作用

即使藉助人工智慧,創造新材料也不是一個簡單的過程。MatterSim 是 MatterGen 的配套產品,可以模擬或預測新材料分子的行為方式。如果結果不是科學家想要的,他們可以使用 MatterGen 進行迭代迴圈,像調整 Microsoft Copilot 提示一樣調整輸入,直到結果滿足科學家的要求。然而,與 MatterGen 不同的是,MatterSim 不是生成性 AI,而是一個確定分子在不同溫度和壓力下如何表現的模擬器。

圖片

圖示:MatterSim 是一種深度學習原子模型,用於預測材料在化學元素、溫度和壓力方面的特性,具有很高的預測精度,具有廣泛的適用性和功能性。

論文連結:https://arxiv.org/abs/2405.04967

MatterSim 使用 Graphormer 架構,該架構基於 Transformer 的基本思想 - 類似於 LLM,它將單詞或句子分解以學習預測句子中的下一個單詞 - 但由微軟研究院針對材料的行為和屬性而建立。

「它經過訓練,可以掌握原子的語言。」上海微軟人工智慧研究院首席研究員陸子恆說,「預測材料的行為對化學家來說至關重要。更重要的是,模型掌握原子的語言——從整個元素週期表中學習。分子在嵌入空間中是什麼樣子的?如何將分子結構轉換成機器可以理解的向量?這是 MatterSim 除了預測材料特性的能力之外最重要的事情。」

該模型採用主動學習,類似於學生備考的方式。當模型獲得新的資料時,它會判斷是否不確定。如果不確定,這些資料就會進入模擬,重新訓練模型,就像學生學習他們還不瞭解的科目部分,而不是他們已經學過的部分一樣。

關於分子行為的資料非常少,因此該團隊使用量子力學計算來建立合成資料,類似於 MatterGen 的示例。

該結果比任何以前的模型都準確十倍,「因為我們能夠生成涵蓋前所未有的材料空間的資料。」陸子恆說,「這使得模型非常準確。」

目前,MatterSim 專注於無機材料,但以後可能會新增其他種類的材料。「MatterSim 是一個特定領域的基礎模型。AI for Science 的研究人員正在朝著一個統一的大型基礎模型邁進,該模型能夠理解整個科學語言,如分子、生物分子、DNA、材料、蛋白質——所有這些以後都可能統一,但對於 MatterSim 來說,目前我們統一的是整個元素週期表。」陸子恆說。

Aurora 用於大氣預報

計算機長期以來對於天氣預報一直髮揮著至關重要的作用,它透過計算物理或流體動力學方程中的數字來模擬大氣系統。

「現在,人工智慧和基礎模型帶來了完全不同的新機遇,」微軟阿姆斯特丹研究院人工智慧首席研究員 Paris Perdikaris 表示,「讓我們走出去觀察世界,收集儘可能多的資料。然後,讓我們訓練一個可以處理這些資料、從這些資料中提取模式並預測天氣等的人工智慧系統。」

圖片

圖示:可用於高解析度預報天氣和大氣過程的基礎模型 Aurora。

論文連結:https://arxiv.org/abs/2405.13063

人工智慧的一大優勢在於,一旦訓練完成,就不需要很大的計算能力。

Perdikaris 說,目前,使用全天候執行的超級計算機生成 10 天的天氣預報大約需要兩個小時。

圖片

圖示:右側地球儀顯示的是 Aurora 的天氣預報,而左側地球儀顯示的是實際測量的天氣狀況。

Aurora 是微軟的大氣科學基礎模型,它使用配備 GPU 的普通臺式計算機,在幾秒鐘內就能完成這項工作。「人工智慧方法帶來的主要不同在於計算效率和降低獲取這些預測的成本。」他說。

Aurora 的準確性也得到了提高,因為它不僅使用基於物理的模型資料,還使用來自衛星、氣象站和其他來源的真實資料,「這些資料更真實地反映了現實情況。」他說,「由於可以接觸到所有這些不同的資訊源,Aurora 有機會將它們融合在一起,併產生比我們現有的傳統模擬工具更準確的預測。」

Aurora 是一個視覺 Transformer,它基於 1.2 PB 的資料進行訓練,這大約是網際網路上所有文字內容體量的十倍。「這仍然是描述地球系統的一小部分資料。」Perdikaris 說。

三個典型的天氣問題——未來十分鐘這裡會下雨嗎?未來十天全球各地的天氣會如何?未來幾個月甚至幾年的天氣變化會如何?到目前為止,都是由不同的預測模型處理的。Aurora 及其未來的擴充套件將能夠使用同一模型回答所有這些問題。

Aurora 是基於天氣資料進行訓練的,但透過利用大氣化學資料進行微調,該模型也可以預測大氣汙染情況。

「我們最初的假設之一是,我們可以利用模型從天氣中學到的知識,並嘗試將其應用於受不同物理現象(如大氣化學)控制的新任務,然後看看效果如何。」Perdikaris 說,「令我們驚訝的是,它確實有效,並給出了一些非常有希望的初步結果。」

人工智慧對汙染預測的好處更加明顯,要知道,目前汙染預測的成本比天氣預測高十倍。

讓科學發現更加容易

陸子恆指出,這些模型可以讓科學對學生更有吸引力。當他攻讀學位時,他必須寫出方程式,「但現在有了這些模擬,我們實際上可以使用計算機或膝上型電腦進行統計。你可以在螢幕上實時看到反應、分子和材料的行為。它讓你非常清楚地瞭解實際發生的情況,而不僅僅是看紙上的方程式。」

基礎模型有潛力改變日常生活並革新行業。透過加速科學發現,它們不僅有望推動醫學和材料等領域的快速進步,而且還能為原子、分子和蛋白質等複雜系統提供更深入的見解,Kruft 說,這反過來又為各個行業開闢了巨大的商業可能性。

相關內容:https://news.microsoft.com/source/features/ai/from-forecasting-storms-to-designing-molecules-how-new-ai-foundation-models-can-speed-up-scientific-discovery/

相關文章