涵蓋文字、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

ScienceAI發表於2024-06-21

圖片

作者 | 香港中文大學白帆

編輯 | ScienceAI

近日,香港中文大學和智源聯合提出的 M3D 系列工作,包括 M3D-Data, M3D-LaMed 和 M3D-Bench,從資料集、模型和測評全方面推動 3D 醫學影像分析的發展。

(1)M3D-Data 是目前最大的 3D 醫學影像資料集,包括 M3D-Cap (120K 3D 圖文對), M3D-VQA (510K 問答對),M3D-Seg(150K 3D Mask),M3D-RefSeg (3K 推理分割)共四個子資料集。

(2)M3D-LaMed 是目前最多功能的 3D 醫學多模態大模型,能夠解決文字(疾病診斷、影像檢索、視覺問答、報告生成等),定位(目標檢測、視覺定位等)和分割(語義分割、指代分割、推理分割等)三類醫學分析任務。

(3)M3D-Bench 能夠全面和自動評估 8 種任務,涵蓋文字、定位和分割三個方面,並提供人工校驗後的測試資料。

我們最早於 2024 年 4 月釋出了資料集、模型和程式碼。

近期,我們提供了更小和更強的 M3D-LaMed-Phi-3-4B 模型,並增加了線上 demo 供大家體驗!

最新進展請關注 GitHub 庫的更新 ,如果有任何疑問和建議可以及時聯絡,歡迎大家討論和支援我們的工作。

圖片

  • 論文連結:https://arxiv.org/abs/2404.00578
  • 程式碼:https://github.com/BAAI-DCAI/M3D
  • 模型:https://huggingface.co/GoodBaiBai88/M3D-LaMed-Phi-3-4B
  • 資料集:https://github.com/BAAI-DCAI/M3D?tab=readme-ov-file#data
  • 線上 Demo:https://baai.rpailab.xyz/

我們能為醫學影像相關研究者提供什麼?

  1. M3D-Data, 最大的 3D 醫學多模態資料集;
  2. M3D-Seg,整合了幾乎所有開源 3D 醫學分割資料集,共計 25 個;
  3. M3D-LaMed, 支援文字、定位和分割的最多功能的 3D 醫學多模態大模型,提供了簡潔清晰的程式碼框架,研究者可以輕易魔改每個模組的設定;
  4. M3D-CLIP,基於 M3D-Cap 3D 圖文對,我們訓練了一個圖文對比學習的 M3D-CLIP 模型,共提供其中的視覺預訓練權重 3DViT;
  5. M3D-Bench,全面和清晰的測評方案和程式碼。
  6. 本文涉及的所有資源全部開放,希望能幫助研究者共同推進 3D 醫學影像分析的發展。

涵蓋文字、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

線上Demo影片。

醫學影像分析對臨床診斷和治療至關重要,多模態大語言模型 (MLLM) 對此的支援日益增多。然而,先前的研究主要集中在 2D 醫學影像上,儘管 3D 影像具有更豐富的空間資訊,但對其的研究和探索還不夠。

本文旨在利用 MLLM 推進 3D 醫學影像分析。為此,我們提出了一個大規模 3D 多模態醫學資料集 M3D-Data,其中包含 120K 個影像-文字對和 662K 個指令-響應對,專門針對各種 3D 醫學任務量身定製,例如圖文檢索、報告生成、視覺問答、定位和分割。

此外,我們提出了 M3D-LaMed,這是一種用於 3D 醫學影像分析的多功能多模態大語言模型。

我們還引入了一個新的 3D 多模態醫學基準 M3D-Bench,它有助於在八個任務中進行自動評估。透過綜合評估,我們的方法被證明是一種穩健的 3D 醫學影像分析模型,其表現優於現有解決方案。所有程式碼、資料和模型均可在以下網址公開獲取。

資料集

M3D-Data 共包括4個子資料集,分別為M3D-Cap(圖文對), M3D-VQA(視覺問答對), M3D-RefSeg(推理分割)和 M3D-Seg(整合 25 個 3D 分割資料集)。

圖片

資料集統計情況。

圖片

M3D-VQA 資料集分佈。其中問題型別主要包括平面、期相、器官、異常和定位五類常見的3D影像問題。

我們整合了幾乎所有開源的 3D 醫學分割資料集,組成了 M3D-Seg,共計 25 個。資料集可以被用來做語義分割、推理分割、指代分割和相應的檢測定位任務。

圖片

M3D-Seg。

模型

M3D-LaMed 模型結構如下圖所示。(a)3D 影像編碼器透過跨模態對比學習損失由圖文資料進行預訓練,可直接應用於圖文檢索任務。(b)在 M3D-LaMed 模型中,3D 醫學影像被輸入到預先訓練的 3D 影像編碼器和高效的 3D 空間池化感知器中,並將視覺 token 插入 LLM,輸出的 [SEG] 作為 prompt 驅動分割模組。

圖片

M3D-LaMed 模型結構。

實驗

圖文檢索

在 3D 圖文檢索中,模型旨在根據相似性從資料集中匹配影像和文字,通常涉及兩個任務:文字到影像檢索 (TR) 和影像到文字檢索 (IR)。

圖片

由於缺乏合適的方法,我們將 2D 醫學的代表模型 PMC-CLIP 應用於 3D 圖文檢索中,我們發現由於缺乏空間資訊,幾乎無法和 3D 圖文檢索模型對比。

圖片

報告生成

在報告生成中,該模型根據從 3D 醫學影像中提取的資訊生成文字報告。

圖片

圖片

封閉式視覺問答

在封閉式視覺問答中,需要為模型提供封閉的答案候選,例如 A,B,C,D,要求模型從候選中選出正確答案。

圖片

圖片

我們發現在醫學領域 M3D-LaMed 超過通用的 GPT-4V。

開放式視覺問答

在開放式視覺問答中,模型生成開放式的答案,不存在任何答案提示和候選。

圖片

圖片

我們發現在醫學領域 M3D-LaMed 超過通用的 GPT-4V。不過需注意目前GPT-4V 限制了醫療相關問題的回答。

定位

定位在視覺語言任務中至關重要,尤其是涉及輸入和輸出框的任務。在輸出框的任務,如指代表達理解 (REC) ,旨在根據指代表達在影像中定位目標物件。相比之下,在輸入框的任務,如指代表達生成 (REG) ,要求模型根據影像和位置框生成特定區域的描述。

圖片

圖片


分割

分割任務在 3D 醫學影像分析中至關重要,因為它具有識別和定位功能。為了解決各種文字提示,分割分為語義分割和指代表達分割。對於語義分割,該模型根據語義標籤生成分割掩碼。指代表達分割需要根據自然語言表達描述進行目標分割,需要模型具有一定的理解和推理的能力。

圖片

圖片

分佈外 (OOD) 問題的案例研究

我們在 OOD 對話中測試了 M3D-LaMed 模型,這意味著所有問題都與我們的訓練資料不相關。我們發現 M3D-LaMed 具有很強的泛化能力,可以對 OOD 問題產生合理的答案,而不是胡言亂語。在每組對話中,左側的頭像和問題來自使用者,右側的頭像和答案來自 M3D-LaMed。

圖片

模型具有很強的推理能力和泛化能力。

我們最新訓練的更小的 M3D-LaMed-Phi-3-4B 模型具有更好的表現,歡迎大家使用!GoodBaiBai88/M3D-LaMed-Phi-3-4B · Hugging Face

圖片

報告生成測評結果

圖片

封閉式 VQA 測評結果

圖片

在 TotalSegmentator 上測評的語義分割 Dice 結果

總結

我們 M3D 系列研究促進了使用 MLLM 進行 3D 醫學影像分析。具體來說,我們構建了一個大規模 3D 多模態醫學資料集 M3D-Data,其中包含 120K 3D 影像文字對和 662K 指令響應對,專為 3D 醫學任務量身定製。此外,我們提出了 M3D-LaMed,這是一個通用模型,可處理影像文字檢索、報告生成、視覺問答、定位和分割。此外,我們引入了一個綜合基準 M3D-Bench,它是為八個任務精心設計的。

我們的方法為 MLLM 理解 3D 醫學場景的視覺和語言奠定了堅實的基礎。我們的資料、程式碼和模型將促進未來研究中對 3D 醫學 MLLM 的進一步探索和應用。希望我們的工作能夠為領域研究者帶來幫助,歡迎大家使用和討論。

相關文章