AI搞科研?西湖大學釋出「AI科學家」Nova,效果比SOTA競品提升2.5倍

ScienceAI發表於2024-10-24

圖片

編輯 | ScienceAI

偉大科學家的研究,往往開始於一個小的靈感、小的創意。

長久以來,科學創新與研究能力被視為人類在人工智慧時代中堅守的一片獨特領地。然而,一篇來自西湖大學深度學習實驗室的論文在科學界掀起了波瀾。

該論文揭示了一種前所未有的方法——利用大型語言模型來催生海量具有突破性的科學構想。僅需一篇前沿的學術文章作為引子,這一模型便能激發出幾百個有創意的、高質量的科研 idea。

AI真的要取代人類科學家了嗎?

西湖大學藍振忠團隊聯合浙江大學、電子科技大學等多所高校研發了「Nova大模型」,它能夠生成大量突破性的科研 idea,在創新性、價值性、可行性等方面可以媲美甚至超過人類科學家。

圖片

論文連結:https://arxiv.org/abs/2410.14255

思考:AI科學家真的要來了?

回答這個問題前,我們先來看看西湖大學藍振忠團隊的研究結論:

該團隊提出的模型大大提升了頂級 idea 的生成能力。以最近 170 篇與大語言模型相關的論文(來自 ACL、ICLR、CVPR 等人工智慧領域頂級會議)為測試集,Nova 模型生成的高質量想法的數量(根據 Si 等人在 2024 年提出的瑞士制排名賽評分來衡量)至少比全球頂尖機構(如史丹佛、微軟)現有的模型多 2.5 倍。

圖片

圖示:Nova 與幾個競品的效果比較。(來源:研究團隊)

模型之所以能夠有效提升高質量想法的生成數量,是因為研究團隊引入了一種增強的規劃和搜尋方法,用於提升大語言模型的能力。該方法能夠幫助模型檢索外部知識,逐步豐富想法,使其包含更廣泛和深入的見解。

圖片

圖示:Nova Pipeline。(來源:論文)

為了驗證「Nova大模型」的能力,研究團隊進行了一系列測試,將得到的結果拿給身邊的科學家看,他們都不敢相信這是AI創作的。

讓我們透過幾個具體的例子來進一步瞭解「Nova 大模型」是如何工作的。

例 1:癌症治療研究者

提示詞:假設你是一位致力於癌症治療研究的科學家,正試圖尋找一種新的治療手段。你將一篇關於免疫療法的論文輸入 Nova 系統作為種子。Nova 隨即生成了一些初步的想法,比如「結合 CRISPR 基因編輯技術和 CAR-T 細胞療法,針對腫瘤微環境中的特定免疫抑制因子。」

接下來,Nova 透過迭代規劃和檢索機制,進一步細化和完善這些初步的概念。在這個過程中,Nova 不僅查閱了最新的研究進展,還借鑑了其他相關領域的知識,如奈米技術、蛋白質工程等。

最終,它形成了一個詳細且創新的研究計劃。這個計劃不僅包括了理論上的設想,還包含了具體的實驗步驟和預期的結果分析,使得研究者可以輕鬆地將想法轉化為實際操作。

例 2:人工智慧教育技術開發者

提示詞:再假設你是一位專注於人工智慧教育技術的研發者,你希望開發一種能夠個性化教學的人工智慧系統。你將一篇關於自適應學習演算法的論文輸入 Nova 系統作為種子。

Nova 隨即生成了一些初步的想法,比如「結合情感計算自適應學習演算法,開發一種能夠感知學生情緒狀態並相應調整教學策略的人工智慧系統。」

Nova 會進一步細化和完善這些初步概念,比如引入情感計算技術來識別學生的情緒變化,並據此調整教學節奏和內容,使得教學更加個性化和有效。透過這樣的迭代過程,最終形成一個既具有創新性又可行的研究方案。

透過這樣的方法,Nova 不僅幫助科學家們找到了新的研究方向,還在教育技術領域發揮了重要作用。個性化的教學系統能夠根據每個學生的具體情況調整教學策略,這對於提高教育質量和促進教育公平具有重要意義。

例 3:環境科學研究員

提示詞:假設你是一位環境科學研究員,致力於開發新的可持續能源解決方案。你將一篇關於太陽能電池效率提升的論文輸入 Nova 系統作為種子。

Nova 隨即生成了一些初步的想法,比如「利用石墨烯增強太陽能電池的光電轉換效率。」

接下來,Nova 透過檢索最新的材料科學文獻,進一步細化和完善這些初步的概念。比如,結合石墨烯的導電特性與太陽能電池的光電轉換機理,設計一種新的太陽能電池結構。最終,形成一個既有科學依據又具有實用性的研究計劃。

初心:為什麼要研究「Nova 大模型」?

「我身邊的科學家,包括我自己做科研這麼多年了,有一個特別明顯的感受,就是我們雖然做著最前沿的最具探索性的事情,但實際組織工作的方式卻是非常傳統的,甚至像是手工作坊。」藍振忠說。

讓我們來看一個科研工作者的一天是如何構成的。到了辦公室,開啟電腦開始看 paper,如果有了新的 idea 會記錄下來,查閱相關資料,看是否有人已經在做這個方向。深度閱讀 1-2 篇 paper,一上午就過去了。下午,開組會,討論上午想出來的 idea,與團隊一起頭腦風暴,探討可行性。

這一天的效率已經夠高了,但是這樣的工作模式可能遠跟不上有價值的 paper 的產生速度。況且,接下來有很多偉大的創新會誕生於跨學科領域,Idea 的產生同樣受到科學家學科背景、過往經驗的限制。

如果我們有一個 AI 模型,可以幫助科學家提升效率,那科研的進展會不會突發猛進?

有了 Nova 大模型後,科研工作者的一天可能會這樣度過。大模型可以迅速閱讀最新的 Paper,幫助科研工作者提取其中的關鍵資訊,根據提取的資訊,生成多個高質量的 idea。涉及到跨領域的知識,大模型也可以輕鬆完成。人類科學家只需要根據模型生成的內容進行判斷,大大節省了科研的時間,提升了科研的效率。

不僅如此,科研所需的創新能力,也正是模型擅長的。「不斷找到最有價值的科研的方向很難,我們就是要嘗試打破現狀,所以打造了 Nova 大模型。科學家個體的能力固然強,我們更希望用 AI 模型『槓桿』科學家的科研能力,加速人類科學的進步。」作為團隊負責人,藍振忠充滿信心。

十足的信心來源於對規律的把握和前景的判斷。藍振忠坦言:「接下來有很多偉大的創新會是跨學科的,比如今年諾貝爾獎頒發給了 AI 交叉領域的科學家,也是對AI跨學科成就的一種肯定。但是,科學家個人終其一生頂多成為1-2個領域的專家,所以單靠個人能力,做跨學科顛覆式創新是非常困難的。但這件事天然適合大模型來做。我們打算讓模型成為各個領域最懂創新的專家,希望它能夠產生人類科研結果中最重要、最稀缺的『跨學科式創新』。」

此外,全球一年的科研經費(以2022年為例)接近2.5萬億美元,我們的模型哪怕只是「替代」了部分科研人員的能力,帶來的價值也是不可估量的。

「因此,提升科研效率、節約資源、為國家科技創新貢獻力量,就是我們研發『Nova大模型』的初心。」藍振忠認為。

難題:訓練 Nova,需要克服什麼困難?

我們借鑑了生物進化裡面的演進原理,idea 的迭代就像生物進化,一代一代的演進與選擇。

「做這件事情是真的很難。」藍振忠坦言。要讓模型像人類一樣思考,懂得人類是如何創新的,並把這種思考方式抽象成演算法和模型的架構,真的做了才知道有多難。

簡單來說,整個模型的創新過程很像人類。

首先我們把人類各種創新方法論融合到模型的推理過程中。然後讓模型基於這些驗證過的方法論、創新路徑來產生一批 idea。這些 idea 對於我們整個模型來說,只是第一步,它們被稱為 seed idea (gen_0)。

這些 seed idea 其實只是模型自我推進創新的開始。模型基於這些 seed idea 會進一步去主動學習搜尋各種各樣的資料,動態選擇新的創新方法論,進而生成下一波更創新的idea(gen_1, gen_2, gen_3 ...), 持續迭代,不斷進步—— 這是一種持續 「探索-學習-進步」 的自我進化演算法原理。

驗證:Nova 大模型採用了什麼樣的自動化、人工評估過程?

研究團隊在質量、多樣性、新穎性三個方面對 Nova 模型進行全面的自動化評估。

1)質量:採用專業的評測方法,將 4 個不同方法生成的 idea 按照瑞士輪方法一起進行打分,Nova 產生的 619 個想法和 2521 個想法分別獲得了 4 分和 5 分,大大超越了其他基線方法。

圖片

圖示:瑞士制排名賽不同方法的得分分佈。(來源:論文)

2)多樣性:大模型生成 idea 重複度比較高是當前面臨的主要問題之一。研究團隊透過計算 idea 之間的相似度來對生成的 idea 進行去重。可以看出,隨著生成的想法數量的增加,Nova 模型可以透過迭代規劃和搜尋不斷產生新的想法。在非重複百分比方面,Nova 的表現明顯優於其他產品,超過 80% 的想法都是獨一無二的。

圖片

圖示:非重複百分比比較。(來源:論文)

3)新穎性:為了探索方法對持續生成新的 idea 的影響,研究團隊還進一步透過消融實驗證明了該方法能持續生成新穎的非重複的 idea。當不採用 plan 方法時,步驟 3 中的獨特想法數量(44.1)與步驟 2 (42.4) 相比不再增加。

這表明,如果沒有plan,僅依靠基於種子想法的檢索會限制獲取有價值的外部知識以進行創新。當規劃和檢索都被刪除時,由於沒有引入外部知識,獨特新穎想法的數量在步驟 2 略有增加(從 25.3 增加到 30.6),在步驟 3 停滯不前(從 30.6 增加到 31.35)。這也進一步說明方法的有效性。

圖片

圖示:Nova 的消融研究。(來源:論文)

研究團隊同樣進行了一系列人工評估。找了 10 位專家(包括對應領域的博士,博後以及資深教授),對生成 idea 在 Overall(整體),Novelty(新穎性),Feasibility(可行性),effectiveness(有效性)進行全面的評估。

同樣地,研究人員發現在人工評估中,Nova 在整體質量和新穎性方面均獲得了最高分。Nova 貢獻了前 4 個想法的 37.5%,是四種方法中最高的。此外,Nova 在最差的 4 個想法中所佔比例非常低,在整體質量方面僅佔 17.53%。在新穎性評估中也觀察到了類似的模式。

圖片

圖示:(左)總體質量的人工評估;(右)新穎性的人工評價。(來源:研究團隊)

展望:未來何時來?

「讓 AI 自驅的進化,推進我們人類的科學突破與產業提升。」藍振忠有自己的夢想,他和團隊也為這個遠大的目標規劃了清晰的路徑。

Nova 模型的釋出,只是團隊邁出的第一步,後續將持續發力:

1)從 0 到 1:先讓模型在單個學科、領域實現創新,快速驗證演算法和模型效果,把基建和底子打好,讓模型成為一個可以給科學家使用的產品。

2)從 1 到 10:進一步擴充模型的橫向能力,成為多學科的創新專家,不僅能生成創新的科學 idea,而且能自動執行驗證,最終發表科研論文。

3)終極目標:讓模型能夠自驅地進行科學探索、商業創新,讓模型推進人類的科學突破與產業提升。

好的願景與目標,需要好的團隊配合實現。研發 Nova 大模型的團隊中,有非常具有創新精神的行業專家,有在國內大廠工作過的演算法專家,有非常懂創新的產品專家。

背靠中國新型研究型大學西湖大學,擁有豐厚的人才儲備和強大的算力資源。談及大模型的前景,藍振忠說:「海外有一家公司,想做的事情跟我們有相似之處,它們今年成立,從初始到現在幾個月的時間估值已經提升至 15 億美元了。說明現在全球都非常認可『AI 在科學領域自驅探索突破』這個方向。我們不能落下,需要儘快打造屬於自己的大模型,為國家科技創新貢獻力量。」

相關文章