編輯 | ScienceAI
近日,卡內基梅隆大學(Carnegie Mellon University)教授,有著「機器學習之父」之稱的 Tom M. Mitchell 撰寫了新的 AI for Science 白皮書,重點討論了「人工智慧如何加速科學發展?美國政府如何幫助實現這一目標?」這一主題。
ScienceAI 對白皮書原文進行了不改變原意的全文編譯,內容如下。
人工智慧領域最近取得了顯著進展,包括 GPT、Claude 和 Gemini 等大型語言模型,因此提出了這樣一種可能性:人工智慧的一個非常積極的影響,也許是大大加速從細胞生物學到材料科學、天氣和氣候建模到神經科學等各種科學領域的研究進展。這裡我們簡要總結一下這個人工智慧科學機遇,以及美國政府可以做些什麼來抓住這個機遇。
人工智慧與科學的機遇
當今幾乎所有領域的絕大多數科學研究都可以歸為「獨行俠」科學。
換句話說,科學家和他們的十幾名研究人員組成的研究團隊提出一個想法,進行實驗來測試它,撰寫並發表結果,也許在網際網路上分享他們的實驗資料,然後重複這個過程。
其他科學家可以透過閱讀已發表的論文來鞏固這些成果,但由於以下幾個原因,這一過程容易出錯且效率極低:
(1)個別科學家不可能讀到其領域內已發表的所有文章,因此對其他相關研究部分視而不見;(2)期刊出版物中描述的實驗必然會省略許多細節,這使得其他人很難複製其結果並在結果基礎上進行研究;(3)單個實驗資料集的分析通常是孤立進行的,未能納入其他科學家進行的其他相關實驗的資料(因此也沒有納入有價值的資訊)。
在未來十年,人工智慧可以幫助科學家克服上述三個問題
AI 可以將這種「獨行俠」式的科學研究模式轉變為「社群科學發現」模式。特別是,人工智慧可以用來創造一種新型的計算機研究助手,幫助人類科學家克服這些問題,方法是:
發現複雜資料集(包括由多個實驗室進行的許多實驗建立的資料集)中的規律,而不是對單個、規模小得多且代表性較差的資料集進行孤立的分析。透過基於超出人類能力的更大數量級的資料集進行分析,可以實現更全面、更準確的分析。 使用 GPT 等人工智慧大型語言模型閱讀和消化該領域的每一篇相關出版物,從而幫助科學家不僅根據自己實驗室和其他實驗室的實驗資料形成新的假設,還可以根據已發表的研究文獻中的假設和論據形成新的假設,從而得出比沒有這種自然語言人工智慧工具時可能得出的更為明智的假設。 建立「基礎模型」,透過利用實驗室和科學家收集的多種不同型別的實驗資料來訓練這些模型,從而將領域內不斷增長的知識集中到一個地方,並提供這些知識的計算機可執行模型。這些可執行的「基礎模型」可以發揮與方程(例如 f = ma)相同的作用,即它們根據其他觀察到的量對某些量進行預測。並且,與經典的方程不同,這些基礎模型可以捕捉數十萬個不同變數之間的經驗關係,而不是少數幾個變數。 實現新實驗設計和機器人執行的自動化或半自動化,從而加快新相關實驗的速度,提高科學實驗的可重複性。
這種科學實踐正規化的轉變可能帶來哪些科學突破?
以下是幾個例子:
將針對新疾病爆發的新疫苗的開發時間和成本減少 10 倍。 加快材料科學研究,可能帶來諸如室溫超導體、將熱量轉化為電能且不產生排放的熱電材料等突破性產品。 將以前從未嘗試過的大量和多樣性的細胞生物學實驗資料結合起來,形成人類細胞功能的「基礎模型」,從而能夠在實驗室中進行體內實驗這一更昂貴的步驟之前,快速模擬許多潛在實驗的結果。 結合神經科學的實驗資料(從單個神經元行為資料到全腦 fMRI 成像),在多個細節層面構建人類大腦的「基礎模型」,以前所未有的規模和多樣性整合資料,並建立一個模型,該模型可以預測大腦用來編碼不同型別的思想和情感的神經活動,這些思想和情感如何被不同的刺激所引起,藥物對神經活動的影響,以及不同療法治療精神障礙的有效性。 提高我們預測天氣的能力,既可以針對高度本地化的區域(例如,單個農場)定製預測,也可以擴充套件我們預測未來天氣的能力。
美國政府可以做些什麼來抓住這個機會?
將這一機遇轉化為現實需要幾個要素:
大量實驗資料
基於文字的基礎模型的一個教訓是,它們訓練的資料越多,其能力就越強。有經驗的科學家也非常清楚,更多、更多樣化的實驗資料的價值。要實現科學的多個數量級的進步,並訓練我們想要的基礎模型型別,我們需要在共享和聯合分析整個科學界貢獻的各種資料集的能力方面取得非常顯著的進步。
獲取科學出版物和用計算機閱讀它們的能力
這裡機遇的一個關鍵部分是改變現在的狀態:科學家不太可能閱讀其領域中 1% 的相關出版物,計算機透過閱讀 100% 的出版物、總結它們及其與當前科學問題的相關性,並提供對話介面來討論其內容和含義。這不僅需要訪問線上文獻,還需要 AI 研究構建這樣一個「文學助手」。
計算和網路資源
GPT 和 Gemini 等基於文字的基礎模型,因其開發過程中耗費的大量處理資源而聞名,開發不同科學領域的基礎模型也需要大量計算資源。然而,許多 AI 科學工作中的計算需求可能比訓練 GPT 等 LLM 所需的計算要小得多,因此可以透過與政府研究實驗室正在進行的類似投資來實現。
例如,AlphaFold 是一種已經徹底改變了藥物設計蛋白質分析的 AI 模型,它使用的訓練計算量比 GPT 和 Gemini 等基於文字的基礎模型要少得多。為了支援資料共享,我們需要大量的計算機網路,但當前的網際網路已經為傳輸大型實驗資料集提供了足夠的起點。因此,與潛在收益相比,支援 AI 驅動的科學進步的硬體成本可能相當低。
新的機器學習和 AI 方法
當前的機器學習方法對於發現人類無法檢查的龐大資料集中的統計規律極為有用(例如,AlphaFold 是在大量蛋白質序列及其精心測量的 3D 結構上進行訓練的)。新機遇的關鍵部分是將當前的機器學習方法(發現資料中的統計相關性)擴充套件到兩個重要方向:(1)從發現相關性轉向發現資料中的因果關係,(2)從僅從大型結構化資料集學習轉向從大型結構化資料集和大量研究文獻中學習;也就是說,像人類科學家一樣從實驗資料和其他人用自然語言表達的已發表假設和論點中學習。最近出現的 LLM 具有消化、總結和推理大型文字集合的高階能力,可以為這種新的機器學習演算法奠定基礎。
政府應該做什麼?關鍵是支援上述四部分,並團結科學界探索基於人工智慧的新方法,以促進他們的研究進展。因此,政府應該考慮採取以下幾種行動:
探索特定科學領域的特定機會,資助許多科學領域的多機構研究團隊,提出願景和初步結果,展示如何使用人工智慧來顯著加速其領域的進步,以及擴大該方法所需的條件。這項工作不應以撥款的形式資助給個別機構,因為最大的進步可能來自於整合許多機構的許多科學家的資料和研究。相反,如果由許多機構的科學家團隊來執行,這可能是最有效的,他們提出的機會和方法可以激勵他們參與整個科學界。
加速建立新的實驗資料集以訓練新的基礎模型,並向整個科學家社群提供資料:
建立資料共享標準,使一位科學家能夠方便使用由不同科學家建立的實驗資料,併為每個相關科學領域的國家資料資源奠定基礎。請注意,在制定和使用此類標準方面,之前已有成功案例,可以為標準工作提供起始模板(例如,人類基因組計劃中資料共享的成功)。
為每個相關領域建立和支援資料共享網站。正如 GitHub 已成為軟體開發人員貢獻、共享和重用軟體程式碼的首選網站一樣,為科學資料集建立一個 GitHub,它既可用作資料儲存庫,又可用作搜尋引擎,用於發現與特定主題、假設或計劃實驗最相關的資料集。
研究如何構建激勵機制以實現資料共享最大化。目前,各個科學領域在個體科學家共享資料的程度,以及營利機構將其資料用於基礎科學研究的程度方面差異很大。建立一個大型、可共享的國家資料資源是人工智慧科學機遇不可或缺的組成部分,構建一個令人信服的資料共享激勵結構將是成功的關鍵。
在適當的情況下,資助開發自動化實驗室(例如,用於化學、生物等實驗的機器人實驗室,可透過網際網路供眾多科學家使用),以高效地進行實驗,並以標準格式生成資料。建立此類實驗室的一個主要好處是,它們還將推動制定標準,以精確說明要遵循的實驗程式,從而提高實驗結果的可重複性。正如我們可以從資料集的 GitHub 中受益一樣,我們也可以從相關的 GitHub 中受益,以共享、修改和重複使用實驗協議的元件。
要建立新一代人工智慧工具,需要:
資助專門開發適用於科學研究方法的相關基礎 AI 研究。這應包括開發廣義上的「基礎模型」,作為加速不同領域研究的工具,並加速從「獨行俠」科學向更強大的「社群科學發現」正規化的轉變。
特別支援閱讀研究文獻的研究,對陳述的輸入假設進行批評和提出改進建議,並幫助科學家以與他們當前問題直接相關的方式從科學文獻中獲取結果。
特別支援將機器學習從發現相關性擴充套件到發現因果關係的研究,特別是在可以計劃和執行新實驗以測試因果關係假設的環境中。
特別支援對機器學習演算法的擴充套件研究,從僅將大資料作為輸入,到同時將大實驗資料和該領域的完整研究文獻作為輸入,以便產生由實驗資料中的統計規律以及研究文獻中討論的假設、解釋和論點共同提供的資訊。
相關內容: