浙大、騰訊團隊釋出科學LLM大規模評測基準,國產大模型表現亮眼

ScienceAI發表於2024-07-02

圖片

編輯 | ScienceAI

隨著大型語言模型(LLMs)在科學研究領域的廣泛應用,評估這些模型在理解和應用科學知識方面的能力變得尤為重要,但是科學領域全面評估 LLMs 科學知識的高階基準非常缺乏。

近日,來自浙江大學 NLP 實驗室與騰訊 AI Lab 的研究者構建了 SciKnowEval 評測基準,定義了 L1 到 L5 不同層級的科學智慧,共包含化學和生物領域 50,000 個不同層次的科學評測題目,並利用該資料集用於對 20 個開源和閉源 LLMs 進行基準測試。

其中,擁有千億至萬億引數的通用大語言模型如 GPT-4o、Gemini1.5-Pro 和 Claude3-Sonnet 表現出色,整體效能大幅優於中小型開源模型,如 Qwen1.5 和 Llama3 等。

相關研究以《SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models》為題,釋出在預印平臺 arXiv 上。

圖片

論文連結:https://arxiv.org/abs/2406.09098

一般來說,同一系列的模型的大小與其效能成正相關,例如,Galactica-30B 的表現就明顯優於 Galactica-6.7B。

作者還評測了一系列科學專業領域大模型,如上海交通大學、蘇州實驗室和思必馳聯合研發的 ChemDFM-13B,以及上海人工智慧實驗室開發的 ChemLLM 系列等。

此類領域大模型大都在開源模型基礎上,利用科學領域語料進一步預訓練,並進行經過精巧設計的微調所得。

在專業領域知識測試中,此類領域大模型整體表現優秀,特別是百億引數的ChemDFM-13B,不僅全面領先其他開源模型,其化學水平也整體逼近 GPT-4o、Gemini1.5-Pro 等千億甚至萬億引數的通用大模型,顯示出垂域科學大模型的優勢。

表 1:化學領域中 LLMs 五個級別的零樣本表現

圖片

從評測結果還可以發現,L1-L4 的效能與 L5 的效能排名有時相差較大。在化學領域最高階的 L5 級任務中,ChemDFM-13B 甚至全面超越了通用大模型。

為了探究這個現象出現的原因,進一步觀察各個維度任務的組成情況,可以發現 L1-L4 任務大都是論文新構建的以選擇題出現的新任務;而 L5 中的分子描述生成和分子生成兩個任務是較為典型的化學人工智慧模型任務。

由此可以認為,對於這些模型來說,L5 評測的是在已訓練任務上的能力,而 L1-L4 則更多的評測 LLM 的通用能力(指令遵循和任務泛化的能力等)。

總而言之,基座大模型的 SFT 不一定能提升模型的效能,SFT 任務的選擇和處理至關重要。

SFT 過程中的任務選擇、組合和處理對大語言模型在科學領域的專業化起到了舉足輕重的影響;而在構造 SFT 資料集的過程中,應該不僅僅考慮對科學領域相關能力的增強,也應儘量維持甚至提高模型的通用語言能力;從而確保模型擁有足夠的指令遵循和任務泛化能力,在更廣泛的科學任務上取得更優異的表現。

附:

在 SciKnowEval 框架中,研究者透過五個遞進的科學知識層次來評估 LLMs 的科學知識,包括廣泛學習、認真探詢、深入思考、準確判斷和實際應用。每個層次都旨在評估 LLMs 在不同方面的科學知識和應用能力。

圖片

圖 1:SciKnowEval 框架設計思路

L1: 廣泛學習(即知識覆蓋)。主要評估大型語言模型對不同科學領域知識的廣泛掌握,主要考查模型的記憶和理解多種科學概念的能力。

L2: 認真探究(即知識探詢和探索)。關注大型語言模型在科學環境中進行深入探究和探索的能力,包括分析科學文獻、識別核心概念及提出相關問題。

L3: 深入思考(即知識反思和推理)。評估模型在批判性思維、邏輯推理、進行數值計算、預測功能以及透過反思性推理解決問題的能力。

L4: 準確判斷(即知識辨識和安全評估)。涉及大型語言模型基於科學知識做出正確、安全及符合道德的決策能力,包括對資訊的危害性和毒性進行評估,以及理解科學活動相關的倫理和安全問題。

L5: 實際應用(即知識實踐和應用)。評價大型語言模型將科學知識有效應用於現實世界情境的能力,如解決複雜的科學問題和開發創新解決方案。。

表 2:在化學領域 L1-L5 的評測任務

圖片

表 3:生物學和化學領域中 LLMs 五個級別的零樣本表現

圖片
*數值較小表示排名較高。表中粗體字標示的是所有模型中的最佳表現,帶下劃線的是次優表現,藍色標示的是開源模型中的最佳表現

相關文章