編輯 | 蘿蔔皮
大型語言模型(LLM)是一種人工智慧系統,以自然語言的形式封裝大量知識。這些系統擅長許多複雜任務,包括創意寫作、講故事、翻譯、問答、總結和計算機程式碼生成。
儘管 LLM 已在自然科學領域得到初步應用,但其推動科學發現的潛力仍未得到充分開發。
在最新的研究中,澳大利亞莫納什大學(Monash University)的研究團隊提出了 LLM4SD,這是一個框架,旨在透過綜合文獻中的知識和從科學資料中推斷知識,利用 LLM 推動分子特性預測中的科學發現。
LLM 透過從科學文獻中提取關鍵資訊(如分子量與溶解度的關係)並識別分子資料中的模式(如含鹵素分子更易穿透血腦屏障),將分子轉化為可解釋的特徵向量。再結合隨機森林等模型,LLM4SD 在分子特性預測任務中表現優異。
該研究以「Large language models for scientific discovery in molecular property prediction」為題,於 2025 年 2 月 25 日釋出在《Nature Machine Intelligence》。

LLM 是在大量文字語料庫上進行訓練的,其中包括大量科學文獻。BioBert、SciBERT、Med-PALM 和 Galactica 等著名模型都是專門針對科學領域量身定製的。同時,像 Falcon 這樣的通用 LLM 在其預訓練中整合了大量科學文獻,包括 arXiv 和 Wikipedia 等來源。
科學家已經證明了這些系統獲得了深刻的能力來解釋和操縱用於描述分子的形式科學語言、SMILES 字串,以及在其解釋中應用來自科學文獻的資訊的能力。
莫納什大學的研究團隊提出了一種科學發現流程 LLM4SD(Large Language Model 4 Scientific Discovery),旨在解決複雜的分子特性預測任務。LLM4SD 透過執行兩個主要任務來發揮作用:從現有文獻中合成知識並透過觀察實驗資料推斷知識。

圖示:分子預測流程中的 LLM4SD。(來源:論文)
LLM4SD 透過指定規則來從 SMILES 字串中匯出與預測目標特徵相關的特徵。其中一些規則是從 LLM 編碼的科學文獻中綜合而來的。其他特徵則從 SMILES 字串訓練集推斷而來,每個字串都標有相關類別或屬性值。然後可以使用基於規則的特徵從訓練資料中學習標準機器學習模型。

圖示:探究 LLM4SD 的組成部分。(來源:論文)
具體而言,首先,LLM4SD 根據其預訓練文獻檢索已知規則來預測分子特性,例如分子量低於 500 Da 的分子更有可能透過血腦屏障 (BBB)。其次,利用對 SMILES 符號和化學知識的理解,LLM4SD 從實驗資料中識別模式,例如含有鹵素的分子更有可能透過 BBB。然後使用這些規則為每個分子建立可解釋的特徵向量。
「就像 ChatGPT 寫論文或解決數學問題一樣,我們的 LLM4SD 工具會閱讀數十年的科學文獻並分析實驗室資料來預測分子的行為方式,從而回答諸如『這種藥物能穿過大腦的保護屏障嗎?』或『這種化合物會溶於水嗎?』」論文的共同一作 Yizhen Zheng 說。
「除了優於目前像『黑匣子』一樣執行的驗證工具之外,該系統還可以使用簡單的規則解釋其分析過程、預測和結果,這可以幫助科學家信任並根據其見解採取行動。」他補充道。

圖示:LLM4SD 與四個領域的基線之間的比較。(來源:論文)
透過使用這些向量訓練可解釋的機器學習模型,研究人員表示 LLM4SD 在由史丹佛 PANDE 小組整理的 MoleculeNet 資料集中的 58 個基準任務中實現了分子特性預測的當前最佳水平。這些任務涵蓋分類和迴歸,涉及四個領域:生理學、生物物理學、物理化學和量子力學。

圖示:LLM 規則下的文獻綜述和統計分析。(來源:論文)
作者之一 Jiaxin Ju 表示:「LLM4SD 並非取代傳統的機器學習模型,而是透過綜合知識和生成可解釋的解釋來增強它們。」
「這種方法確保了人工智慧驅動的預測仍然可靠,並且可供不同科學學科的研究人員使用。」共同作者 Huan Yee Koh 補充道
該研究的共同通訊作者、莫納什大學資訊科技學院的 Geoffrey I. Webb 教授表示,LLM 可以準確地模仿從文獻中綜合提煉知識和透過解釋資料提出假設的關鍵科學發現技能。
LLM4SD 工具的表現優於目前用於執行這些任務的最先進的科學工具;例如,它在預測材料設計關鍵的量子特性方面的準確率提高了 48%。
雖然取得了這些令人欣喜的成果,研究人員也承認科學發現領域廣闊而複雜;這項研究還只是觸及了表面。儘管如此,LLM4SD 取得的進展為更深入的探索鋪平了道路,預示著一個人工智慧驅動的洞察力與人類智慧交織在一起以糾正當前科學生產力下降的時代的到來。
Webb 教授表示:「我們已經完全進入了生成人工智慧時代,我們需要儘可能利用它來推動科學發展,同時確保我們以合乎道德的方式發展它。」
「該工具有可能使藥物發現過程更容易、更快、更準確,併成為世界各地各個領域科學家的強大研究支援。」論文的共同通訊作者 Shirui Pan 教授表示。
「像 LLM4SD 這樣的模型可以快速綜合數十年的先驗知識,然後轉而發現資料中可能未被廣泛報導的新模式。」Pan 教授說,「我們認為這是加快研發程序及其他方面的關鍵進展。」
展望未來,科學家們對人工智慧作為未來科學發現、革命性流程和加速突破的關鍵所發揮的潛在作用持樂觀態度。
論文連結:https://www.nature.com/articles/s42256-025-00994-z
相關報導:https://techxplore.com/news/2025-02-simulating-scientists-tool-ai-powered.html