清華大學AIR聯合水木分子開源DeepSeek版多模態生物醫藥大模型BioMedGPT-R1

ScienceAI發表於2025-02-21

圖片

編輯 | ScienceAI

2025 年初,DeepSeek給全球引發了 AI 大模型的新一輪熱議。多家市場諮詢公司指出,在 DeepSeek 的影響下,從大模型供應商到基礎設施和平臺供應商的整個 AI 產業生態都掀起了一波「新浪潮」。 DeepSeek R1 以其強大的推理能力,為各行各業帶來了智慧化升級新機遇。而生物醫藥領域,也正在迎來它的 DeepSeek 時刻。

2025 年 2 月 20 日,清華大學人工智慧產業研究院(AIR)和北京水木分子生物科技有限公司(水木分子)攜手推出了升級版的生物醫藥多模態開源基礎大模型 BioMedGPT-R1。

此前,在 2023 年,雙方合作釋出了開源可商用、生物醫藥多模態百億引數開源基礎大模型 BioMedGPT,水木分子釋出了自研千億引數多模態生物醫藥專業大模型 Chat DD-FM 和新一代 AI 驅動藥物發現工具 Chat DD。這次 DeepSeek 版 ChatDD- R1 基座模型也已同步上線 ChatDD,賦能生物醫藥企業的藥物研發。

自發布以來,BioMedGPT 受到了開源社群和產研界的廣泛歡迎和好評,清華大學 AIR 與水木分子也在 ICML、NeurIPS 和 KDD 等國際頂級會議上圍繞生物醫藥研發場景聯合發表了多篇學術論文。BioMedGPT-R1 與 ChatDD-R1 將 DeepSeek-R1 運用到生物醫藥多模態大模型和醫藥研發助手中,進一步降低計算成本、升級智慧能力、提高研發效率,開源與商業「雙管齊下」、推動「AI+醫藥」DeepSeek 浪潮。

BioMedGPT-R1新一代開源生物醫藥多模態大模型

BioMedGPT 是清華大學智慧產業研究院(AIR)攜手水木分子開源的全球首個可商用多模態生物醫藥百億引數大模型,該模型在生物醫藥專業領域問答能力比肩人類專家水平,釋出時在自然語言、分子、蛋白質跨模態問答任務上達到SOTA。BioMedGPT 能夠同時處理多種生物醫學任務,具有廣泛的適用性、更多的可能性。

在BioMedGPT的基礎上,清華大學AIR與水木分子再次攜手推出了 BioMedGPT-R1 (圖 1),用 DeepSeek R1 蒸餾版本模型更新了 BioMedGPT 中現採用的文字基座模型,從而引入了更優的文字推理能力。透過跨模態特徵對齊,BioMedGPT-R1 實現了生物模態與自然語言文字模態在同一個特徵空間的統一融合,探索了生物多模態場景下的模型深度推理能力。透過訓練對齊翻譯層(Translator),BioMedGPT-R1 將生物模態編碼器(Molecule Encoder 與 Protein Encoder)輸出對映到自然語言表徵空間,從而在 DeepSeek R1 基礎上增加了生物模態資料的理解能力。

圖片

圖 1:BioMedGPT-R1 模型框架和主要訓練步驟

BioMedGPT-R1 的訓練分為兩個主要步驟(圖1):首先,僅訓練對齊翻譯層 Translator,使其能將編碼後的生物模態表徵對映到語義表徵空間;然後,同時微調對齊翻譯層 Translator 和基座大語言模型,激發其在下游任務上的多模態深度推理能力。

以化學小分子 XM 為例,在 BioMedGPT-R1 中,XM 經過化學分子編碼器提取特徵,生成中間表示 ZM,然後透過對齊翻譯層進行對映,得到化學分子表徵EM,進而與經過處理和編碼的語言指令表徵 EQ共同輸入至基座語言模型,使語言模型能夠結合兩個模態資訊進行綜合推理,生成最終的文字回復。

基於上述模型架構與訓練策略,BioMedGPT-R1 支援跨模態自然語言和生物語言的互動式問答推理,可應用到藥物分子深度理解分析、藥物靶點探索與挖掘等領域。例如,當需要了解某個化學分子時,BioMedGPT-R1 可以從分子結構、官能團組成、生化性質和可能的應用等方面逐步推理分析,最終形成文字回復(圖 2)。生物醫藥從業人員日常工作既離不開文字,也離不開小分子、蛋白質等生物模態資訊,BioMedGPT-R1 將「強推理慢思考」從單文字模態,進一步推廣至生物多模態場景,賦能生物醫藥行業。

圖片

圖 2:跨模態對齊後,模型實現多模態問答場景下的理解分析

清華大學 AIR 和水木分子研究團隊長期持續維護 OpenBioMed 開源平臺(https://github.com/PharMolix/OpenBioMed),團隊現階段探索方向是如何在強推理語言模型的基礎上更好地適應性地實現跨模態對齊,團隊正在以 BioMedGPT-R1 為基礎進行系統性研究與綜合評估,目前已經觀察到其在化學分子理解任務上的效能提升,如在 CheBI-20 化學分子描述任務上相比上一版本效果提升超 15%(表 1),後續也將依託 OpenBioMed 平臺開源 BioMedGPT-R1 模型和生物醫藥研發 Agent 系統框架。

表1:在CheBI-20化學分子描述任務上產生明顯效能提升

圖片

BioMedGPT-R1 在生物醫藥相關文字問答任務上也展現出了較優的效果,如在 USMLE美國醫師資格考試上達到了 67.1% 正確率,效果逼近閉源商用大模型和人類專家水平(圖 3),並在專家級醫療推理與理解評測集 MedXpertQA 上達到和閉源商用大模型相當的效果(圖 4),團隊正在探索生物醫藥場景下的多個深度推理能力應用,期待讓「強推理慢思考」賦能醫藥研發。

圖片

圖 3:在 USMLE 美國醫師資格考試評測集上效果逼近閉源商用大模型和人類專家水平

圖片

圖 4:在 MedXpertQA 專家級醫學推理與理解評測集上效果與閉源商用大模型相當

ChatDD-R1:藥企全流程智慧化升級,顯著提升藥物研發效率

水木分子開發的對話式醫藥研發助手 ChatDD,基於分子、蛋白質和單細胞等多模態生物醫藥大模型,服務藥物研發全流程,包括立項調研、靶點挖掘、早期藥物發現、臨床前研究、生物標記物發現和精準患者招募等場景。DeepSeek 版 ChatDD-R1 將是多模態生物醫藥大模型 ChatDD-FM 的升級版本大幅提升了推理規劃能力,為廣大藥企提供更強的研發能力、更高的研發效率和更低的研發成本。ChatDD-R1 與水木分子專屬知識圖譜結合,為藥企使用者提供更加專業、實時、全面的深度檢索與思考;同時也與藥物研發專家經驗流程結合,在特定場景給予專業思路引導,例如藥物競品分析、上市藥物的專利過期時間、訊號通路推薦等。

相關文章