91.1% 準確率,效能遠超 GPT-4 系列模型,谷歌推出多模態醫學大模型 Med-Gemini

ScienceAI發表於2024-05-07

91.1% 準確率,效能遠超 GPT-4 系列模型,谷歌推出多模態醫學大模型 Med-Gemini

編輯 | 蘿蔔皮

各種複雜的醫療應用給人工智慧帶來了巨大挑戰:需要先進的推理、獲取最新的醫學知識以及對複雜的多模態資料的理解。Gemini 模型在多模態和長上下文推理方面具有強大的通用能力,為 AI 在醫學領域應用提供了可能性。

基於 Gemini 的核心優勢,谷歌的研究人員推出了 Med-Gemini,這是一個功能強大的多模態模型系列,專門用於醫學,能夠無縫使用網路搜尋,並且可以使用自定義編碼器有效地針對新穎的模態進行定製。

研究人員用 14 項醫療基準評估 Med-Gemini,在其中 10 項上建立了新的最先進(SOTA)效能,在每個可以進行直接比較的基準測試中,並且遠遠超過 GPT-4 系列模型。

在 MedQA (USMLE) 基準上,效能最佳的 Med-Gemini 模型使用新穎的不確定性引導搜尋策略,實現了 91.1% 準確率的 SOTA 效能。

在包括 NEJM Image Challenges 和 MMMU(健康與醫學)在內的 7 個多模態基準測試中,Med-Gemini 比 GPT-4V 提高了 44.5% 的平均相對優勢。同時,Med-Gemini 的長上下文能力,超越了之前僅使用上下文學習的定製方法。

該研究以「Capabilities of Gemini Models in Medicine」為題,於 2024 年 4 月 29 日釋出在 arXiv 預印平臺

圖片

醫學領域的人工智慧應用面臨複雜挑戰,包括需要精準的臨床推理,在不斷更新的醫學知識中進行有效學習,以及處理包含文字、影像、影片等多種模態的醫療資料。

電子病歷系統中往往存在的詞彙不一致性、異構資料結構、上下文依賴的語義理解難題,以及醫療記錄中多義性縮寫的潛在誤解,都是當前AI系統必須克服的具體問題。

此外,AI 系統的安全性和誤差,特別是在處理罕見或細緻的醫療狀況時,也是重要的考量點。因此,開發能夠綜合多源資訊、具備長期上下文理解與多模態分析能力的 AI 模型,對於提升醫療決策支援和患者護理至關重要。

谷歌的研究人員提出了一種名為 Med-Gemini 的新型醫學專用多模態模型系列,該系列模型源自強大的 Gemini 模型,具備出色的多模態和長上下文推理能力。Med-Gemini 模型透過整合網路搜尋功能,能自適應新模態資料,具有處理跨專科多模態資料的能力。

圖片

圖示:研究概述。(來源:論文)

研究人員在 14 個醫療基準中的 25 項任務中評估了 Med-Gemini 的能力,包括文字、多模態和長上下文應用程式。這是迄今為止最全面的多模態醫療模型基準測試。

臨床語言任務上的SOTA結果

針對臨床推理進行最佳化的 Med-Gemini 使用一種新穎的不確定性引導搜尋策略,在 MedQA (USMLE) 上達到了 91.1% 的 SOTA 效能。

圖片

圖示:基於文字的評估。(來源:論文)

研究人員與臨床專家一起仔細重新註釋 MedQA 資料集,並且量化和分析這些最佳化,發現這些最佳化是有意義的。Med-Gemini 在 NEJM CPC 和 GeneTuring 基準上表現出 SOTA 效能,進一步證明了搜尋策略的有效性。

圖片

圖示:將 Med-Gemini-L 1.0 推廣到另外兩個基於文字的基準。(來源:論文)

多模態和長情境能力

Med-Gemini 在研究人員評估的 7 個多模態醫療基準中的 5 個上實現了 SOTA 效能。該團隊展示了多模態醫療微調的有效性以及使用專用編碼器層定製心電圖 (ECG) 等新型醫療模態的能力。

圖片

圖示:基於長篇文字任務評估。(來源:論文)

Med-Gemini 還表現出強大的長上下文推理能力,在具有挑戰性的基準上達到了 SOTA,例如冗長的電子健康記錄中的「大海撈針」任務或醫療影片理解基準。接下來,研究人員還將進一步探索 Gemini 在放射報告生成方面的能力。

Med-Gemini 的現實世界效用

除了在流行的醫療基準上的表現之外,研究人員還透過對醫療記錄摘要、臨床轉診信生成和 EHR 問答等任務的定量評估來預覽 Med-Gemini 的潛在現實世界效用。

圖片

圖示:在皮膚科環境中與 Med-Gemini-M 1.5 進行假設多模態診斷對話的示例。(來源:論文)

該團隊展示了多模態診斷對話中的定性示例以及模型的長上下文功能在醫學教育、面向臨床醫生的工具和生物醫學研究中的應用。

圖片

圖示:在放射學環境中與 Med-Gemini-M 1.5 進行假設多模態診斷輔助對話的示例。(來源:論文)

研究人員表示,此類用途(特別是在診斷等安全關鍵領域)仍然需要大量的研究和開發。

結語

雖然取得了顯著成果,Med-Gemini 及其應用仍需進一步驗證和最佳化。尤其是在評估模型對醫療影像的精確標註、教育資料檢索及與具體解剖結構相關的對話能力上,還有很大的探索空間。

為了在實際醫療環境中發揮最大效用,必須密切審視模型在資料檢索和生成中的臨床錯誤,主動識別並減輕資料偏見,確保模型的公平性和準確性。

此外,研究人員提到,針對特定醫療專業(如神經學、兒科、精神科)的案例分析顯示,模型表現存在差異,提示未來研究應針對不同專科特點進行定製化改進。

透過持續的臨床驗證、使用者反饋迴圈和演算法迭代,Med-Gemini 模型有望更好地融入臨床工作流程,提高醫患溝通效率,支援臨床決策,最終促進醫療質量和患者安全的提升。

總之,大型多模態語言模型正在開創健康和醫學的新時代。

論文連結:https://arxiv.org/abs/2404.18416

相關內容:https://twitter.com/_akhaliq/status/1785137044169138641

相關文章