作者 | 劉鐵巖
正處於起步階段的AI for Science被認為是科學發現的第五正規化。儘管目前對於AI for Science的定義和研究方向仍有諸多討論,但這並不妨礙AI for Science已經開始在科學發現的實踐中取得令人矚目的成果。
近年來,微軟研究院科學智慧中心傑出首席科學家劉鐵巖博士和他的團隊致力於推動AI for Science的發展和應用。在這篇署名文章中,劉鐵巖博士將分享他對人工智慧在科學領域關鍵研究方向的看法 ,以及對AI for Science未來前景的展望。
「AI for Science預示著一種全新的科學發現正規化。透過構建統一的科學基座模型,AI for Science將消除不同科學領域之間的壁壘,實現透過一個模型解決眾多科學難題的目標。它還有望推動更加普及的科學探索正規化,透過與基座模型互動,讓每個人都能參與到科學發現的過程中。而為了實現這些願景,我們必須要讓科學基座模型超越人類語言的限制,去學習、理解大自然的語言。」
——微軟研究院科學智慧中心
傑出首席科學家
劉鐵巖博士
今天的人工智慧技術,在很多工上的表現已經可以媲美人類,特別是在認知、感知等層面。然而,我們對人工智慧的長遠願景決不能侷限在復刻人類已有的知識和技能——我們更期待人工智慧可以幫助人類探索未知領域,加速我們認識世界和改造世界的程序。
科學進步是推動現代人類社會發展的核心動力。因此,賦予人工智慧以科學發現的能力,無疑是其發展的必然方向之一。圖靈獎獲得者Jim Gray在《科學發現的四個正規化》一書中將科學發現的歷程分為四個階段:千年前的經驗科學,百年前的理論科學,幾十年前的計算科學,以及十幾年前的資料科學。而AI for Science的出現將會成為前四種正規化的有機結合和昇華,我們稱之為科學發現的「第五正規化」,並不吝寄予其更大的期望。
2022年,微軟研究院成立了科學智慧中心(Microsoft Research AI for Science),我有幸作為該團隊的創始成員之一,與世界各地的頂尖專家共同探索這一跨領域研究的開創性課題。經過兩年的努力,我們在AI for Science的研究上取得了一系列令人振奮的成果。更重要的是,這一過程也在不斷重新整理我們對AI for Science的理解。
我想分享的一個深刻的感受:我們必須正視科學發現的艱鉅性。我們決不能簡單地認為只要高舉AI的大錘,就可以輕易攻克科學發現的難題。AI for Science的健康發展,需要我們秉承格外嚴謹和審慎的態度,始終對科學發現保持敬畏之心,在深入理解科學規律的基礎上,對現有的AI工具進行改造、甚至發明全新的AI理論和演算法。只有這樣,才有可能讓AI真正加速科學發現的程序,改變科學發現的格局。
AI for Science的三個要素
作為一個新興領域,AI for Science尚未有一個公認的定義。在我看來,AI for Science並不等於「在科學研究過程中使用一些AI技術」。我們所追求的AI for Science是一個更加系統和深入的概念,AI要深度融入科學研究的各個環節,從資料處理到模擬模擬,到實驗研究,到發現新的科學規律,AI要成為科學研究的核心技術,要為科學發現雪中送炭,而不是錦上添花。
我認為,AI for Science應該包含三個要素:利用合成資料,構建科學基座模型,實現科學研究的閉環。
利用合成資料:在自然科學領域,有很多科學規律可以指導我們利用計算的方法產生合成資料,比如透過求解薛定諤方程獲得電子結構和分子體系的微觀屬性,透過求解納維斯托克斯方程獲得流體的速度和壓力場。
而這些合成資料不受實驗條件的侷限,只要有足夠的計算資源就可以產生任意多的資料。透過這些合成資料訓練出來的人工智慧模型,可以實現對這些科學方程更加直接且高效的求解,進而用於生成更多的合成資料。
這種合成資料的飛輪效應,能夠讓人工智慧模型實現自我演化,更快、更有效地學習和提高自身能力,從而更深入地理解科學的本質,擴充科學的邊界。
構建科學基座模型:AI for Science應當遵循類似GPT等大模型的設計思路,用一種通用技術來解決廣泛的科學問題。
在過去的科學研究中,人們通常認為隔行如隔山,不同領域的科學問題需要用獨立的方法來求解。但是,我們的客觀世界實際上是由一些「簡單通用」的底層規律所支配的。
比如,無論是不規則的無機小分子、週期性的晶體材料、還是蛋白質、DNA等生物大分子,其背後都被薛定諤方程所支配著。
這種科學規律的共通性為我們整合所有科學領域、任務、和模態,構建統一的科學基座模型奠定了基礎。科學基座模型可以幫助我們找到複雜現象背後的規律和內在聯絡,在不同學科知識的碰撞中產生「1+1>2」的效果,從方法論層面影響科學發現。
此外,科學基座模型還要從各種科學文獻中學習人類歷史上積累的科學知識及其推理能力,並在此基礎上實現人類語言和科學語言的銜接,使普通人也能透過語言與基座模型互動,從而降低科學發現的專業門檻,讓人人都能成為「愛因斯坦」,推動科學發現的「平權」。
實現科學研究的閉環:科學發現是一個大膽假說、小心求證的過程,後者通常依賴於實驗室工作。為了實現科學發現的全鏈條,AI for Science必須與真實世界形成閉環,不能僅僅侷限於數字世界。
近年來,實驗室自動化已成為科學探索的新趨勢,人工智慧是這些自動化實驗室的大腦,指導機械臂精確執行操作,自動合成、自動實驗,從而實現從理論到實驗驗證的完整閉環。
試想一下,一旦我們可以利用科學基座模型提出新的科學假說、進行計算模擬、再透過自動化實驗室來驗證,並將結果反饋給基座模型修正假說、反覆迭代——以上過程能夠7×24小時全天候執行,人類的科學發現能力將發生根本性的改變。
AI for Science的基座模型要讀懂大自然的語言
微軟研究院科學智慧中心自成立之初,就將科學基座模型作為主要的研究專案,並且明確了科學基座模型的發展方向——科學基座模型必須要突破人類語言的侷限,要能夠學習和理解科學概念、科學實體、科學規律,掌握支配萬事萬物的大自然的語言。
目前,市面上的科學大模型可以分為兩個類別,一類是針對特定的垂直子領域,如蛋白質、DNA、單細胞等,設計和訓練相應的大模型;另一類是將GPT等大語言模型進行改造或者適配到科學領域。
前者只見樹木,不見森林,聚焦在一個小的垂直領域,無法學到普遍的科學規律,離掌握大自然的語言相去甚遠;後者則對人類語言過度依賴,作為一種基於統計的、線性、符號化的表達方式,人類語言難以完整地描述自然界的多樣性和複雜性。
大自然語言是一種高維度、多模態、科學嚴謹的表達。首先,自然界中的物質世界是高維度、多尺度的,不同維度和尺度之間受到深層科學規律的相互制約,這些規律無法簡單地用人類語言的字元序列加以表達。
其次,自然界裡存在各種不同的模態,比如複雜的聲光電現象、波粒二象性、時空的相互轉化等等,蘊含著用人類語言無法充分描述的深刻奧秘。再有,人類語言會受到個體認知和社會文化等因素的影響,存在偏倚和誤差。而科學探索追求的是嚴謹及普適性,大自然的語言是客觀存在且不受人為因素影響的。
我們只有構建能夠處理高維、多模態資料的科學基座模型,並將科學規律巧妙地融入模型的構建和訓練過程中,才能外推到模型未曾見過的客觀世界,才能真正學習和掌握大自然的語言。
聚焦微觀世界的深入探索與應用
面向微觀世界和宏觀世界的研究是AI for Science的兩個重要方向。由於微觀世界的科學規律已經被人類充分掌握,理論完備,也有很多直接或間接的實驗手段,因此AI for Science在微觀領域大展身手具有充分的理論和實踐基礎。
針對宏觀世界,雖然人類還沒有完全掌握其背後的物理規律,但也已經積累了大量資料,AI for Science可以利用這些資料,進行規律挖掘和預測,如天氣預報和氣候變化研究等。
目前,微軟研究院科學智慧中心的AI for Science研究更專注於微觀世界,並將相關的研究專案分成了三個層次:基礎層是科學基座模型;中間層是科學模擬工具(如電子結構預測、分子動力學模擬等),應用層是解決各領域的重大科學問題(如材料設計和藥物開發等)。
在基礎層,我們致力於設計和訓練科學基座模型。經過近兩年的深入研究,我們已經取得了一些突破性進展,開發出了基座模型的一些重要子模組,在分子科學的關鍵領域展示出令人振奮的能力。
例如,我們在NeurIPS上發表的Graphormer模型,是科學基座模型的結構編碼器,它對分子結構的理解有非常獨到的能力,在第一屆OGB-LSC分子建模比賽和OC20催化劑設計開放挑戰賽中都力壓群雄,獲得冠軍。
我們開發的BioGPT模型,作為科學基座模型的序列解碼器的一部分,是第一個在Pubmed QA任務上超過人類專家水平的AI 模型。
而我們剛剛在《自然-機器智慧》(Nature Machine Intelligence)雜誌上發表的用於分子結構平衡分佈預測的深度學習框架Distributional Graphormer,則是科學基座模型的結構解碼器,它能夠對分子的動態統計特性進行端到端的建模,在物質的微觀分子結構和宏觀物化屬性之間建立了連線的橋樑。
圖示:Distributional Graphormer 示意圖。(來源:論文)
在中間層,我們的研究重點包括電子結構預測、分子動力學模擬等,這些方向為理解和預測分子行為提供關鍵資訊。
在電子結構預測方面,我們在《自然-計算科學》(Nature Computational Science) 雜誌上發表了M-OFDFT技術,可以利用AI方法將傳統DFT(密度泛函理論)的複雜度明顯降低。
同時,我們還在GPU加速、平行計算等方面進行了更加深入的探索,進一步提高DFT的計算效率,成功將DFT計算擴充到更大尺度的分子體系,該技術已在微軟Azure雲平臺上釋出,受到了業界的高度讚譽。
在分子動力學模擬方面,我們開發了機器學習力場ViSNet,它可以針對蛋白質等生物大分子給出精準的能量和力場的預測,相關研究成果作為編輯精選文章發表在《自然-通訊》(Nature Communications)雜誌上,並且獲得了首屆全球AI藥物設計大賽的冠軍。
圖示:ViSNet 示意圖。(來源:論文)
中間層的AI模型和科學基座模型有著很強的依賴關係,它們會在科學基座模型的通用建模能力的基礎上,再融入領域資料和洞察,透過模型微調或知識蒸餾,獲得針對特定領域更高的精度或更高的效率。
在應用層,我們特別關注製藥和材料領域的重大科學問題。這是當前與AI for Science研究最契合,而且市場需求最大的領域。
在此方向上我們也取得了令人鼓舞的成果,比如能夠加速發現和設計更新穎、更穩定材料的MatterSim和MatterGen模型;能夠根據指定靶點,自動設計候選藥物的TamGen模型。
尤其是基於TamGen模型,我們與GHDDI(全球健康藥物研發中心)和蓋茨基金會進行了深入合作,為肺結核和冠狀病毒等仍然肆虐全球的傳染病設計出了全新的高效候選藥物。
經過實驗室合成和酶抑制試驗,這些AI設計出來的候選藥物表現出了非常優異的效能,與已知的先導化合物相比,其生物活性提高了近10倍,為治癒相關疾病做出了有益的探索。
除此之外,我們也在研究科學智慧體和關注實驗室自動化,希望能夠早日實現科學發現的自動化,助力人類文明以更快的節奏進化。我們還十分關注負責任的AI for Science,利用法律、道德和社會規範為AI for Science的研究保駕護航。
圖示:TamGen示意圖。(來源:論文)
憧憬人人都可參與科學發現的未來
AI for Science的深入研究與發展,將為科學發現開啟無限可能,為人類探索自然提供更豐富的方法和工具。利用AI for Science,計算機模擬的精度將無限接近於現實世界實驗的精度,助力科學研究的質量和效率提升至全新高度,引領科學探索進入嶄新的階段。
更重要的是,科學基座模型的引入有望使科學發現變得更加普及化。科學探索將不再僅僅是專業領域科學家們的「特權」,任何對科學發現抱有熱情的人,都將能夠透過語言與大模型進行互動,驗證他們的奇思妙想。
這將激勵更多人參與解決諸如醫療健康、新材料發現、可持續發展等社會性問題,前所未有地匯聚全人類的智慧來造福世界。
當然,我們也必須清醒地認識到,AI for Science的發展並非一蹴而就,需要長期的投入和研究,並攻克一些前所未有的挑戰。作為一個高度跨學科的研究領域,AI for Science對交叉領域人才的需求非常迫切。AI for Science的研究者需要在計算機或自然科學領域具有很深的造詣,並且對交叉學科相互融合具備廣闊的視野和開放的心態,對其他領域的難度和複雜性保持充分的理解與尊重。
算力和資料同樣給AI for Science研究帶來了極大的挑戰。自然科學現象的資料型別和複雜度都遠超語言資料,深入研究科學智慧所需的算力和資料量也將呈指數級增長,大大高於現有的大語言模型。
此外,構建完整的AI for Science研究閉環並非易事。正如之前提到的,研究閉環不僅關係到驗證假說的有效性,也是衡量人工智慧在科學發現中的效率和質量的關鍵。但傳統的實驗室方法論難以支援AI for Science的發展,我們需要全新的實踐方法論,例如設計全新的實驗方案和自動化流程。
儘管AI for Science作為新興的科學發現正規化還面臨著許多未知的挑戰,但我們目前所取得的每一點進展都預示著它將為人類帶來無盡的可能性。
AI for Science研究中不乏令人望而卻步的難題,但也正是這些難題,激發了我們探索和創新的熱情。
我和我的同事們將繼續懷揣著極大的熱忱投身於這一領域,並樂於與那些對AI for Science秉持嚴謹態度和長遠願景的各領域專家學者合作,共同推動AI for Science成為人類認識世界和改造世界的變革性力量。
關於作者
劉鐵巖博士,微軟傑出首席科學家、微軟研究院科學智慧中心亞洲區負責人。他是國際電氣電子工程師學會(IEEE)會士、 國際計算機學會(ACM)會士、亞太人工智慧學會(AAIA)會士。他(曾)被聘為卡內基梅隆大學、清華大學、香港科技大學、中國科技大學、南開大學、華中科技大學兼職教授、諾丁漢大學榮譽教授。
劉鐵巖博士的先鋒性研究促進了機器學習與資訊檢索之間的融合,被公認為「排序學習」領域的代表人物。近年來他在深度學習、強化學習、工業智慧、科學智慧等方面頗有建樹,在頂級國際會議和期刊上發表論文數百篇,被引用數萬次。他曾擔任WWW/WebConf、SIGIR、NeurIPS、ICLR、ICML、IJCAI、AAAI、KDD等十餘個國際頂級學術會議的大會主席、程式委員會主席或(資深)領域主席;包括ACM TOIS、ACM TWEB、IEEE TPAMI在內的知名國際期刊副主編。
劉鐵巖博士畢業於清華大學,先後獲得電子工程系學士、碩士及博士學位。
相關連結
Graphormer專案頁面
https://www.microsoft.com/en-us/research/project/graphormer/
Distributional Graphormer:從分子結構預測到平衡分佈預測
https://www.msra.cn/zh-cn/news/features/distributional-graphormer
ViSNet:用於分子性質預測和動力學模擬的通用分子結構建模網路
https://www.msra.cn/zh-cn/news/features/visnet
MatterGen: a generative model for inorganic materials design
https://arxiv.org/abs/2312.03687
M-OFDFT:Overcoming the barrier of orbital-free density functional theory for molecular systems using deep learning
https://www.nature.com/articles/s43588-024-00605-8
Bio-GPT:Generative Pre-trained Transformer for Biomedical Text Generation and Mining
https://arxiv.org/abs/2210.10341
MatterSim: A Deep Learning Atomistic Model Across Elements, Temperatures and Pressures
https://arxiv.org/abs/2405.04967
TamGen: Target-aware Molecule Generation for Drug Design Using a Chemical Language Model
https://www.biorxiv.org/content/10.1101/2024.01.08.574635v2.full.pdf