化學能力超GPT-4,首個化學領域百億級大模型,思必馳、上交大、蘇州實驗室聯合釋出

ScienceAI發表於2024-04-07

圖片

編輯 | ScienceAI

2024年3月12日,思必馳-上海交大智慧人機互動聯合實驗室、蘇州實驗室共同釋出了首個針對化學科學的百億級專業化大模型ChemDFM。

模型引數現已完全開源以幫助和促進大模型輔助化學科研領域的相關研究(https://huggingface.co/OpenDFM/ChemDFM-13B-v1.0)。

此外,ChemDFM的研究論文也已作為相關領域的第一篇研究論文於arXiv預印本網站上公開發表。

圖片

論文連結:https://arxiv.org/abs/2401.14818

ChemDFM模型基於經典開源大模型LLaMa,引入了海量的化學基礎與前沿知識,充分學習並掌握化學科學的專有語言與表達方式,最終以130億的引數量在大多數化學相關的能力上超越了公認最強大的模型GPT-4。

此外,在進一步的評測中ChemDFM顯示出了其他類似模型幾乎不具備的結合內部知識理解和分析陌生分子的能力,實現了在面對陌生分子或者陌生反應時,結合相關的化學知識進行推理與回答。

模型構建

ChemDFM的構建主要由兩個過程組成,領域預訓練與指令微調,研究團隊透過這兩個階段分別解決了大模型專業化過程中兩個最主要的困難:通用大模型缺少專業知識以及難以理解專業語言。

通用資料所包括的化學專業知識是極其有限的,這導致了通用大模型所學習到的專業知識也極為有限。因此,研究團隊收集整理了大量公開的論文資料,透過篩選最終得到了近400萬篇化學及相關學科的論文。此外,考慮到論文更多的包含前沿和探索性的知識,研究團隊還收集了大量化學課本及工具書等資料以提供基礎性的知識。基於這些預料,研究團隊構建了340億詞元的預料庫對通用大模型LLaMa進行領域預訓練。

除了專業知識外,具體的專業領域中往往包含迥異於自然語言的特殊表達方式或「語言」。在化學領域中,這一語言主要指的是化學分子與化學反應,他們所傳達出的資訊含量與密度往往遠遠高於自然語言。

為了幫助ChemDFM掌握化學分子與反應的理解能力,研究團隊從最大的分子資料庫之一——PubChem以及最大的化學反應資料庫之一——USPTO中收集了大量的資料,圍繞最常用的序列化表達三維分子的語法——SMILES,構建了170餘萬條的資料,覆蓋了分子識別、性質預測、反應預測等多種不同的化學能力,用以ChemDFM的指令微調訓練。

此外,自然語言的理解和對話能力是大模型能夠處理和解決全新場景下的陌生問題的基礎。因此,研究團隊向領域預訓練和指令微調的語料庫中均引入了相當數量相應格式的通用資料,透過調整專業資料和通用資料的比例,最大限度的保持了ChemDFM的自然語言能力,實現了強大的結合化學知識分析陌生分子和陌生反應的能力。

圖片

客觀評測

為了評估ChemDFM在化學領域的專業能力,研究團隊在六種任務上對其進行了全方位的評測,全面的展示了ChemDFM在分子的識別、性質的預測、反應的理解等方面的能力,體現了模型解決化學專業問題的潛能。

圖片

評測結果顯示,ChemDFM-13B在所有評測的任務中均表現優異,成績遠超LLaMa、Galactica等同等以上規模的開源大模型,在大多數任務上的成績超過了GPT-4。考慮到GPT-4可能的模型規模,可以認為ChemDFM在化學專業領域內具有強大的理解、分析與推理能力。

主觀評測

大模型輔助科學研究(AI for Science)的終極目標之一是構建能夠輔助科研人員工作的智慧體。要想達到這個目標,具有在真實場景下進行自由發散的對話形式人機合作的能力是必不可少的。

因此,僅能理解化學知識與化學分子是不夠的,模型還需要能夠識別並理解陌生分子與陌生化學反應,並運用學習到的化學知識進行分析推理。

為了驗證ChemDFM及相關模型的這項能力,研究團隊結合最新發表的化學論文構建了包含陌生分子與陌生反應的具體問題向大模型進行了提問,下圖中展示了部分示例。

圖片

評測結果顯示,同等規模以上的開源大模型僅能理解並「記憶」相關的化學知識,當問題中包含了陌生的分子或反應時,難以生成針對性的解答,更不能對相關過程背後的反應機理進行分析。

GPT-4能夠在一定程度上結合具體情況做出分析,但由於GPT-4的閉源性,無法判斷訓練資料中是否包含相關分子或類似問題。

而ChemDFM在很好的在分析理解題目中出現的陌生分子及反應的基礎上,結合學習到的化學知識進行了具體的分析和解答,併成功的給出了相應問題解答中的關鍵點,且會進一步嘗試分析反應機理。即使機理分析存在一定的細節錯誤,ChemDFM還是能總體上給出正確的答案。

綜上,本項評測僅有ChemDFM顯示出結合化學知識對陌生分子和反應進行分析和推理並最終給出有針對性的解答的能力。

圖片

此外,ChemDFM還針對自由發散的人機對話進行了評測。在根據最新文獻構建出的陌生科研情景下,ChemDFM給出了自己的建議,並根據人類的反饋進行了改進或細化,初步展示出了作為科研助手輔助科學研究的潛力。

總結和展望

ChemDFM不僅在多項不同角度的化學領域專業問題上顯著提升了大模型的效能,同時展現出了在陌生場景下的自由發散的對話形式互動的強大能力。

ChemDFM初步實現了真正意義上的化學領域通用人工智慧,為大模型輔助科學研究的進一步發展開啟了新的探索方向和角度。

相信基於ChemDFM的進一步探索和完善,例如多模態的引入、領域工具的呼叫、幻覺的減少等,將加速智慧化學科研助手的出現及自動化智慧化的化學研究發展,從而縮短研發週期,降低研發成本,並最終助力藥學、材料學等相關學科的全過程智慧化以及高質高效的發展,創造不可忽視的社會效益。

相關文章