作者 | 香港中文大學白帆
編輯 | ScienceAI
近日,香港中文大學和智源聯合提出的 M3D 系列工作,包括 M3D-Data, M3D-LaMed 和 M3D-Bench,從資料集、模型和測評全方面推動 3D 醫學影像分析的發展。
(1)M3D-Data 是目前最大的 3D 醫學影像資料集,包括 M3D-Cap (120K 3D 圖文對), M3D-VQA (510K 問答對),M3D-Seg(150K 3D Mask),M3D-RefSeg (3K 推理分割)共四個子資料集。
(2)M3D-LaMed 是目前最多功能的 3D 醫學多模態大模型,能夠解決文字(疾病診斷、影像檢索、視覺問答、報告生成等),定位(目標檢測、視覺定位等)和分割(語義分割、指代分割、推理分割等)三類醫學分析任務。
(3)M3D-Bench 能夠全面和自動評估 8 種任務,涵蓋文字、定位和分割三個方面,並提供人工校驗後的測試資料。
我們最早於 2024 年 4 月釋出了資料集、模型和程式碼。
近期,我們提供了更小和更強的 M3D-LaMed-Phi-3-4B 模型,並增加了線上 demo 供大家體驗!
最新進展請關注 GitHub 庫的更新 ,如果有任何疑問和建議可以及時聯絡,歡迎大家討論和支援我們的工作。
- 論文連結:https://arxiv.org/abs/2404.00578
- 程式碼:https://github.com/BAAI-DCAI/M3D
- 模型:https://huggingface.co/GoodBaiBai88/M3D-LaMed-Phi-3-4B
- 資料集:https://github.com/BAAI-DCAI/M3D?tab=readme-ov-file#data
- 線上 Demo:https://baai.rpailab.xyz/
我們能為醫學影像相關研究者提供什麼?
- M3D-Data, 最大的 3D 醫學多模態資料集;
- M3D-Seg,整合了幾乎所有開源 3D 醫學分割資料集,共計 25 個;
- M3D-LaMed, 支援文字、定位和分割的最多功能的 3D 醫學多模態大模型,提供了簡潔清晰的程式碼框架,研究者可以輕易魔改每個模組的設定;
- M3D-CLIP,基於 M3D-Cap 3D 圖文對,我們訓練了一個圖文對比學習的 M3D-CLIP 模型,共提供其中的視覺預訓練權重 3DViT;
- M3D-Bench,全面和清晰的測評方案和程式碼。
- 本文涉及的所有資源全部開放,希望能幫助研究者共同推進 3D 醫學影像分析的發展。
線上Demo影片。
醫學影像分析對臨床診斷和治療至關重要,多模態大語言模型 (MLLM) 對此的支援日益增多。然而,先前的研究主要集中在 2D 醫學影像上,儘管 3D 影像具有更豐富的空間資訊,但對其的研究和探索還不夠。
本文旨在利用 MLLM 推進 3D 醫學影像分析。為此,我們提出了一個大規模 3D 多模態醫學資料集 M3D-Data,其中包含 120K 個影像-文字對和 662K 個指令-響應對,專門針對各種 3D 醫學任務量身定製,例如圖文檢索、報告生成、視覺問答、定位和分割。
此外,我們提出了 M3D-LaMed,這是一種用於 3D 醫學影像分析的多功能多模態大語言模型。
我們還引入了一個新的 3D 多模態醫學基準 M3D-Bench,它有助於在八個任務中進行自動評估。透過綜合評估,我們的方法被證明是一種穩健的 3D 醫學影像分析模型,其表現優於現有解決方案。所有程式碼、資料和模型均可在以下網址公開獲取。
資料集
M3D-Data 共包括4個子資料集,分別為M3D-Cap(圖文對), M3D-VQA(視覺問答對), M3D-RefSeg(推理分割)和 M3D-Seg(整合 25 個 3D 分割資料集)。
模型
M3D-LaMed 模型結構如下圖所示。(a)3D 影像編碼器透過跨模態對比學習損失由圖文資料進行預訓練,可直接應用於圖文檢索任務。(b)在 M3D-LaMed 模型中,3D 醫學影像被輸入到預先訓練的 3D 影像編碼器和高效的 3D 空間池化感知器中,並將視覺 token 插入 LLM,輸出的 [SEG] 作為 prompt 驅動分割模組。
實驗
圖文檢索
在 3D 圖文檢索中,模型旨在根據相似性從資料集中匹配影像和文字,通常涉及兩個任務:文字到影像檢索 (TR) 和影像到文字檢索 (IR)。
報告生成
在報告生成中,該模型根據從 3D 醫學影像中提取的資訊生成文字報告。
封閉式視覺問答
在封閉式視覺問答中,需要為模型提供封閉的答案候選,例如 A,B,C,D,要求模型從候選中選出正確答案。
開放式視覺問答
在開放式視覺問答中,模型生成開放式的答案,不存在任何答案提示和候選。
定位
定位在視覺語言任務中至關重要,尤其是涉及輸入和輸出框的任務。在輸出框的任務,如指代表達理解 (REC) ,旨在根據指代表達在影像中定位目標物件。相比之下,在輸入框的任務,如指代表達生成 (REG) ,要求模型根據影像和位置框生成特定區域的描述。
分割
分割任務在 3D 醫學影像分析中至關重要,因為它具有識別和定位功能。為了解決各種文字提示,分割分為語義分割和指代表達分割。對於語義分割,該模型根據語義標籤生成分割掩碼。指代表達分割需要根據自然語言表達描述進行目標分割,需要模型具有一定的理解和推理的能力。
分佈外 (OOD) 問題的案例研究
我們在 OOD 對話中測試了 M3D-LaMed 模型,這意味著所有問題都與我們的訓練資料不相關。我們發現 M3D-LaMed 具有很強的泛化能力,可以對 OOD 問題產生合理的答案,而不是胡言亂語。在每組對話中,左側的頭像和問題來自使用者,右側的頭像和答案來自 M3D-LaMed。
我們最新訓練的更小的 M3D-LaMed-Phi-3-4B 模型具有更好的表現,歡迎大家使用!GoodBaiBai88/M3D-LaMed-Phi-3-4B · Hugging Face
總結
我們 M3D 系列研究促進了使用 MLLM 進行 3D 醫學影像分析。具體來說,我們構建了一個大規模 3D 多模態醫學資料集 M3D-Data,其中包含 120K 3D 影像文字對和 662K 指令響應對,專為 3D 醫學任務量身定製。此外,我們提出了 M3D-LaMed,這是一個通用模型,可處理影像文字檢索、報告生成、視覺問答、定位和分割。此外,我們引入了一個綜合基準 M3D-Bench,它是為八個任務精心設計的。
我們的方法為 MLLM 理解 3D 醫學場景的視覺和語言奠定了堅實的基礎。我們的資料、程式碼和模型將促進未來研究中對 3D 醫學 MLLM 的進一步探索和應用。希望我們的工作能夠為領域研究者帶來幫助,歡迎大家使用和討論。