「有這樣一臺智慧醫療裝置,患者只需躺在智慧醫療裝置上便可完成從掃描、診斷、治療、修復的全過程,實現健康的重啟」。這是 2013 年上映的科幻電影「極樂空間」中的一個情節。
電影《極樂空間》場景
如今,隨著人工智慧技術的飛速發展,科幻電影中展示的醫療場景將有望成為現實。面向醫療領域,大型視覺語言模型 (LVLMs) 能夠處理成像、文字甚至生理訊號等多種資料型別,如 DeepSeek-VL、GPT-4V、Claude3-Opus、 LLaVA-Med、MedDr、DeepDR-LLM 等,在疾病診斷和治療中彰顯出巨大的發展潛力。
然而,在 LVLMs 真正投入到臨床實踐之前,還需要建立基準測試進行模型的有效性評估。但目前的基準測試通常基於特定的學術文獻,且主要集中在單一領域,缺乏不同的感知粒度,因此難以全面地評估 LVLMs 在真實臨床場景中的有效性和表現。
針對於此,上海人工智慧實驗室聯合華盛頓大學、莫納什大學、華東師範大學等多家科研單位提出了 GMAI-MMBench 基準。GMAI-MMBench 由來自全球的 284 個下游任務資料集構建而成,涵蓋 38 種醫學影像模態、18 項臨床相關任務、18 個科室以及視覺問題解答 (VQA) 格式的 4 種感知粒度,具有完善的資料結構分類和多感知粒度。
相關研究以「GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI」為題,入選 NeurIPS 2024 Dataset Benchmark,並在 arXiv 發表預印本。
論文地址:
https://arxiv.org/abs/2408.03361v7
HyperAI超神經官網現已上線「GMAI-MMBench 醫療多模態評估基準資料集」,一鍵即可下載!
資料集下載地址:
https://go.hyper.ai/xxy3w
GMAI-MMBench :迄今為止最全面的且開源的通用醫療 AI 基準
GMAI-MMBench 的整體構建過程可以分為 3 個主要步驟:
首先,研究人員從全球公開資料集和醫院資料中搜尋了數百個資料集,經過篩選、統一影像格式和標準化標籤表達後,保留了 284 個高質量標籤的資料集。
值得一提的是,這 284 個資料集涵蓋了 2D 檢測、2D 分類和 2D/3D 分割等多種醫學影像任務,並由專業醫生標註,確保了醫學影像任務的多樣性以及高度的臨床相關性和準確性。
GMAI-MMBench 概覽
緊接著,研究人員將所有標籤分類為 18 個臨床 VQA 任務和 18 個臨床科室,使其可以全面評估 LVLMs 在各個方面的優劣,方便模型開發者和有特定需求的使用者。
具體來說,研究人員設計了一個名為詞彙樹 (lexical tree) 結構的分類系統,將所有病例分為 18 項臨床 VQA 任務、18 個科室、38 種模態等。「臨床 VQA 任務」、「科室」、「模態」是可用於檢索所需評估病例的詞彙。例如,腫瘤科可以選擇與腫瘤學相關的病例來評估 LVLMs 在腫瘤學任務中的表現,從而極大地提高了針對特定需求的靈活性和易用性。
最後,研究人員根據每個標籤對應的問題和選項池生成了問答對。每個問題必須包含影像模態、任務提示和對應的標註粒度資訊。最終的基準透過額外的驗證和人工篩選獲得。
GMAI-MMBench 示例圖
50 個模型評估,誰能在 GMAI-MMBench 基準測試中更勝一籌
為了進一步推動 AI 在醫療領域的臨床應用,研究人員在 GMAI-MMBench 上評估了 44 個開源的 LVLMs(其中包括 38 個通用模型和 6 個醫學特定模型),以及商用閉源 LVLMs,如 GPT-4o、GPT-4V、Claude3-Opus、Gemini 1.0、Gemini 1.5 和 Qwen-VL-Max。
參與評估的 50個 LVLMs 架構一覽
結果發現,當前的 LVLMs 中仍有 5 大不足之處,具體如下:
- 臨床應用仍有進步空間:即使是效能最優的模型 GPT-4o,雖達到了臨床實際應用的要求,但準確率也僅為 53.96%,這表明當前的 LVLMs 在處理醫學專業問題方面存在不足,仍有巨大進步空間。
- 開源模型與商業模型的對比:MedDr 和 DeepSeek-VL-7B 等開源 LVLM 的準確率約為 44%,在某些任務上優於商業模型 Claude3-Opus 和 Qwen-VL-Max,並且與 Gemini 1.5 和 GPT-4V 的表現相當。然而,與表現最佳的 GPT-4o 相比,仍具有明顯的效能差距。
- 大多數醫學專用模型難以達到通用 LVLMs 的一般效能水平(約 30% 的準確率),但 MedDr 除外,其準確率達到 43.69%。
- 大多數 LVLMs 在不同的臨床 VQA 任務、科室和感知粒度上表現不均衡。特別是在不同感知粒度的實驗中,框選層級 (box-level) 的註釋準確率始終最低,甚至低於影像層級的註釋。
- 導致效能瓶頸的主要因素包括感知錯誤(如影像內容識別錯誤)、缺乏醫學領域知識、無關的回答內容以及由於安全協議拒絕回答問題。
綜上,這些評估結果表明,當前 LVLMs 在醫療應用中的效能還有很大提升空間,需要進一步最佳化以滿足實際臨床需求。
集聚醫學開源資料集,助力智慧醫療縱深發展
在醫療領域,高質量的開源資料集已經成為推動醫療研究和臨床實踐進步的重要驅動力。為此,HyperAI超神經為大家精選了部分醫學相關的資料集,簡要介紹如下:
PubMedVision 大規模醫學 VQA 資料集
PubMedVision 是一個大規模且高質量的醫療多模態資料集,由深圳市大資料研究院、香港中文大學和 National Health Data Institute 的研究團隊於 2024 年建立,包含 130 萬個醫學 VQA 樣本。
為了提高圖文資料的對齊度,研究團隊採用視覺大模型 (GPT-4V) 對圖片進行重新描述,並構建了 10 個場景的對話,將圖文資料改寫為問答形式,增強了醫療視覺知識的學習。
直接使用:https://go.hyper.ai/ewHNg
MMedC 大規模多語言醫療語料庫
MMedC 是一個由上海交通大學人工智慧學院智慧醫療團隊於 2024 年構建的多語言醫療語料庫,它包含了約 255 億個 tokens,涵蓋了 6 種主要語言:英語、中文、日語、法語、俄語和西班牙語。
研究團隊還開源了多語言醫療基座模型 MMed-Llama 3,該模型在多項基準測試中表現卓越,顯著超越了現有的開源模型,特別適用於醫學垂直領域的定製微調。
直接使用:https://go.hyper.ai/xpgdM
MedCalc-Bench 醫療計算資料集
MedCalc-Bench 是一個專門用於評估大語言模型 (LLMs) 在醫療計算能力方面的資料集,由美國國立衛生研究院國家醫學圖書館和弗吉尼亞大學等 9 個機構於 2024 年共同釋出,這個資料集包含了 10,055 個訓練例項和 1,047 個測試例項,涵蓋了 55 種不同的計算任務。
直接使用:https://go.hyper.ai/XHitC
OmniMedVQA 大規模醫學 VQA 評測資料集
OmniMedVQA 是一個專注於醫療領域的大型視覺問答 (Visual Question Answering, VQA) 評測資料集。這個資料集由香港大學與上海人工智慧實驗室於 2024 年聯合推出,包含 118,010 張不同的圖片,涵蓋 12 種不同的模態,涉及超過 20 個人體不同的器官和部位,且所有影像都來自真實的醫療場景,旨在為醫學多模態大模型的發展提供評測基準。
直接使用:https://go.hyper.ai/1tvEH
MedMNIST 醫療影像資料集
MedMNIST 由上海交通大學於 2020 年 10 月 28 日釋出,是一個包含 10 個醫學公開資料集的集合,共計包含 45 萬張 28*28 的醫療多模態圖片資料,涵蓋了不同的資料模式,可用於解決醫學影像分析相關問題。
直接使用:https://go.hyper.ai/aq7Lp
以上就是 HyperAI超神經本期為大家推薦的資料集,如果大家看到優質的資料集資源,也歡迎留言或投稿告訴我們哦!
更多高質量資料集下載:https://go.hyper.ai/jJTaU
參考資料:
https://mp.weixin.qq.com/s/vMWNQ-sIABocgScnrMW0GA