編輯 | 白菜葉
許多臨床任務需要了解專業資料,例如醫學影像、基因組學,這類專業知識資訊在通用多模態大模型的訓練中通常不存在。
在上一篇論文的描述中,Med-Gemini 在各種醫學成像任務上超越 GPT-4 系列模型實現了 SOTA!
在這裡,Google DeepMind 撰寫了第二篇關於 Med-Gemini 的論文。
在 Gemini 的多模態模型的基礎上,該團隊為 Med-Gemini 系列開發了多個模型。這些模型繼承了 Gemini 的核心功能,並透過 2D 和 3D 放射學、組織病理學、眼科、皮膚病學和基因組資料的微調,針對醫療用途進行了最佳化:
該研究以「Advancing Multimodal Medical Capabilities of Gemini」為題,於 2024 年 5 月 6 日釋出在 arXiv 預印平臺。
來自生物樣本庫、電子健康記錄、醫學成像、可穿戴裝置、生物感測器和基因組測序等不同來源的醫療資料正在推動多模態人工智慧解決方案的開發,從而更好地捕捉人類健康和疾病的複雜性。
雖然醫學領域的人工智慧主要專注於具有單一輸入和輸出型別的狹窄任務,但生成人工智慧的最新進展顯示出在解決醫療環境中的多模態、多工挑戰方面的前景。
以 Gemini 等強大模型為代表的多模態生成人工智慧擁有徹底改變醫療保健的巨大潛力。雖然醫學是這些新模型快速迭代的資料來源,但由於其高度專業化的資料,通用模型在醫學領域應用時通常表現不佳。
基於 Gemini 的核心功能,DeepMind 推出了 Med-Gemini 系列的三個新模型,Med-Gemini-2D、Med-Gemini-3D、Med-Gemini-Polygenic。
來自 370 萬張醫學影像和病例的超過 700 萬個資料樣本用於訓練模型。使用各種視覺問答和影像字幕資料集,包括一些來自醫院的私人資料集。
為了處理 3D 資料 (CT),使用了 Gemini 影片編碼器,其中時間維度被視為深度維度。為了處理基因組資料,各種性狀的風險評分被編碼為影像中的 RGB 畫素。
Med-Gemini-2D
Med-Gemini-2D 根據專家評估,為基於人工智慧的胸部 X 射線(CXR)報告生成制定了新標準,超過了之前兩個獨立資料集的最佳結果,絕對優勢為 1% 和 12%,其中 AI 的正常病例報告為 57% 和 96%,異常病例報告為 43% 和 65%,與原始放射科醫生的報告相比質量「相當」甚至「更好」。
圖示:Med-Gemini-2D 在胸部 X 射線分類任務上的效能。(來源:論文)
Med-Gemini-2D 在分佈胸部 X 射線分類任務上優於通用的較大 Gemini 1.0 Ultra 模型(在訓練期間看到了來自同一資料集的示例)。對於分佈外的任務,效能各不相同。
在組織病理學分類任務上,Med-Gemini 的表現大多優於 Gemini Ultra,但未能超越病理學特定的基礎模型。
在皮膚病變分類上,觀察到類似的趨勢(特定領域模型 > Med-Gemini > Gemini Ultra),儘管 Med-Gemini 與特定領域模型非常接近。
對於眼科分類,再次看到類似的情況。請注意,特定領域模型是在約 200 倍的資料上進行訓練的,因此相比之下,Med-Gemini 的表現相當不錯。
該團隊還評估了醫學視覺問答(VQA)方面的 Med-Gemini-2D 模型。在這裡,他們的模型在許多 VQA 任務上都非常強大,經常擊敗 SOTA 模型。Med-Gemini-2D 在 CXR 分類和放射學 VQA 方面表現良好,在 20 項任務中的 17 項上超過了 SOTA 或基線。
除了對醫學影像的簡單狹義解釋之外,作者還評估了 Med-Gemini-2D 在胸部 X 射線放射學報告生成方面的表現,並觀察到它根據放射學專家的評估實現了 SOTA!
Med-Gemini-3D
Med-Gemini-3D 不僅僅適用於 2D 影像,還應用於自動化端到端 CT 報告生成。根據專家評估,其中 53% 的 AI 報告被認為是臨床可接受的,儘管需要進行額外的研究來滿足專家放射科醫生的報告質量,但這是第一個能夠完成此任務的生成模型。
Med-Gemini-Polygenic
最後,根據各種性狀的多基因風險評分,對 Med-Gemini-Polygenic 的健康結果預測進行了評估。該模型通常優於現有基線。
圖示:使用 Med-Gemini-Polygenic 與分佈不均和分佈外結果的兩個基線進行比較的健康結果預測。(來源:論文)
以下是 Med-Gemini 支援的多模態對話的一些示例!
在組織病理學、眼科和皮膚科影像分類中,Med-Gemini-2D 在 20 項任務中的 18 項中超越了基線,並接近特定任務的模型效能。
結語
總體而言,這項工作在通用多模態醫療人工智慧模型方面取得了有益的進展,但顯然還有很大的改進空間。許多特定領域模型的效能優於 Med-Gemini,但 Med-Gemini 能夠在資料較少和更通用的方法下表現良好。有趣的是,Med-Gemini 在依賴更多語言理解的任務(例如 VQA 或放射學報告生成)上似乎表現得更好。
研究人員設想未來所有這些單項功能都整合到綜合系統中,從而執行一系列複雜的多學科臨床任務。AI 與人類一起工作,從而最大限度地提高臨床療效並改善患者的治療結果。
論文連結:https://arxiv.org/abs/2405.03162
相關內容:https://twitter.com/iScienceLuvr/status/1789216212704018469