九大成像模式一鍵解析,生物醫學影像AI再迎突破!微軟、UW等BiomedParse登Nature子刊

ScienceAI發表於2024-11-20

圖片

作者 | BiomedParse團隊

編輯 | ScienceAI

生物醫學影像解析在癌症診斷、免疫治療和疾病進展監測中至關重要。然而,不同的成像模式(如MRI、CT和病理學)通常需要單獨的模型,造成資源浪費和效率低下,未能充分利用模式間的共性知識。

微軟團隊最新發布的基礎模型BiomedParse,開創性地透過文字驅動影像解析將九種成像模式整合於一個統一的模型中,透過聯合預訓練處理物件識別、檢測與分割任務,實現了生物醫學影像解析的新突破。

BiomedParse顯著提升了複雜、不規則形狀物件的識別精度,同時降低了使用者互動的需求,為精準醫療和生物醫學發現提供了更強大的工具。

圖片

論文連結:https://www.nature.com/articles/s41592-024-02499-w

BiomedParse:透過語言打破九種成像模式之間的壁壘

醫學影像的成像模式差異巨大(如CT、MRI、病理切片、顯微鏡影像等),傳統上需要訓練專家模型進行處理。然而不同醫學影像呈現的物體背後,實際上是共通的生物醫學知識。

BiomedParse是第一個透過醫學語言實現跨九種成像模式進行一致性分析的生物醫學基礎模型。

使用者只需透過簡單的臨床語言提示指定目標物件,例如「腫瘤邊界」或「免疫細胞」,BiomedParse便能準確識別、檢測並分割影像中的相關區域。相比傳統需要手動框定或標註物件邊界的模型,

BiomedParse極大地減少了科學家和臨床醫生的工作量。無論是影像級別的器官掃描,還是細胞級別的顯微鏡影像,BiomedParse都可以直接利用臨床術語進行跨模式操作,為使用者提供了更統一、更智慧的多模式影像解析方案。

圖片

這種跨模式的一體化方法,連線了放射學、病理學、顯微鏡學等多個領域,幫助研究人員從不同模式的資料中解析出有價值的資訊,從而探索多尺度、跨學科的生物醫學問題。BiomedParse的問世,標誌著生物醫學影像分析從單一模式走向了全域性統一的新階段。

核心亮點

BiomedParse在生物醫學影像分析中解鎖了多項創新功能:

  • 跨模式一致性分析:BiomedParse首次實現了跨九種成像模式的穩定表現,取代了傳統的單獨工具,使研究人員能夠更快速、便捷地分析大量資料集。
  • 文字驅動的影像解析:BiomedParse利用自然語言提示進行影像解析,將物件識別、檢測和分割任務視為一體。無需耗時的手動標註或邊界框操作,顯著縮短了大規模影像分析的時間和精力。
  • 複雜結構的精準識別:在分割不規則形狀的生物醫學物件方面,BiomedParse相較傳統模型表現卓越。透過將影像區域與臨床概念關聯,分割精度比之前最好方法提高了39.6%,確保了在關鍵任務中的可靠性。

GPT-4驅動的大規模資料合成

為支援BiomedParse的預訓練,微軟團隊利用GPT-4從45個公開的醫學影像分割資料集生成了首個覆蓋物件識別、檢測和分割任務的資料集BiomedParseData。

該資料集包含超過600萬個影像、分割標註與文字描述三元組,涵蓋64種主要生物醫學物件型別及82個細分類別,涉及CT、MRI、病理切片等九種成像模式。透過GPT-4的自然語言生成能力,研究人員將散落在各種現有資料集中的分割任務用統一的醫學概念和語言描述整合起來,讓BiomedParse能在更大,更多樣的資料中融會貫通。

圖片

實驗評估:只需文字提示,BiomedParse精度超越SOTA

在測試集上,BiomedParse在Dice係數上顯著超越了當前最優方法MedSAM和SAM,並且無需對每個物件手動提供邊界框提示。即使在給MedSAM和SAM提供精準邊界框的情況下,BiomedParse的純文字提示分割效能仍能超越5-15個百分點。

此外,BiomedParse的效能還優於SEEM、SegVol、SAT、CellViT、Swin UNETR等多個模型,尤其在複雜不規則的物件識別上表現突出。

圖片

生物醫學影像中的不規則物件一直是傳統模型的難題,而BiomedParse透過聯合物件識別和檢測任務,透過文字理解實現了對物件特定形狀的建模。對複雜物件的識別精度遠超傳統模型,且在多模態資料集中進一步凸顯了其優勢。

圖片

展望未來:多模態生物醫學AI的基石

BiomedParse擴充了生物醫學影像解析的可能性,將九種成像模式納入一個統一、多用途的模型中。透過簡單的文字提示,BiomedParse顯著減少了使用者的互動需求,尤其在包含大量物件的影像中,無需逐一標註物件的邊界框。透過物件識別閾值建模,BiomedParse能夠檢測無效的提示請求,並在影像中不存在指定物件時拒絕分割。

BiomedParse可以一次性識別並分割影像中的所有已知物件,實現全域性影像解析的擴充套件,未來有望應用於早期檢測、預後評估、治療決策支援和疾病進展監測等精準醫療關鍵應用場景。

圖片

展望未來,BiomedParse擁有廣闊的發展潛力,可進一步擴充套件至更多成像模式和物件型別,並與LLaVA-Med等高階多模態框架整合,支援「對話式」影像分析,實現資料互動式探索。

為促進生物醫學影像分析研究,微軟已將BiomedParse開源並提供Apache 2.0許可,相關演示demo 和 Azure API均已上線,以支援全球精準醫療和健康研究的進步。

微軟佈局醫療AI

近年來,微軟在醫療人工智慧(AI)領域積極佈局,取得了多項重要成果。今年初,微軟聯合華盛頓大學和Providence醫療系統釋出了首個全切片數字病理學模型GigaPath,該研究成果發表在《自然》正刊上。

近期,微軟在其Azure AI平臺上部署了多個多模態醫療AI模型,包括本文中提到的BiomedParse和專為放射學應用設計的生成式多模態AI模型LLaVA-Rad和MAIRA-2以及對比學習基礎模型MedImageInsight。透過在Azure AI平臺上部署這些先進的多模態醫療AI模型,微軟旨在為醫療行業提供全新的工具,推動醫療服務的智慧化發展。

作者簡介

論文的五位共同一作及通訊作者均為華人,分別來自微軟和華盛頓大學。

趙正德(Theodore Zhao),論文第一作者,為該研究作出主要技術貢獻。微軟高階應用科學家,現主要研究方向包括多模態醫療AI模型,影像分割與處理,大模型的安全性分析(Pareto最優誤差估計)。本科畢業於復旦大學物理系,博士畢業於華盛頓大學應用數學系,期間研究希爾伯特-黃變換和分數布朗運動的多尺度特徵,以及隨機最佳化在醫療領域的應用。

圖片

顧禹(Aiden Gu),論文共同一作,微軟高階應用科學家,致力於推動AI在醫療領域的發展。本科畢業於北京大學微電子與經濟專業。其研究方向專注於醫療健康、生物醫學,以及機器人多模態模型。代表性工作包括建立首個領域特定的大語言模型PubMedBERT,以及患者旅程模擬模型BiomedJourney。

圖片

潘海峰(Hoifung Poon),論文通訊作者,微軟研究院健康未來(Health Futures)General Manager,華盛頓大學(西雅圖)計算機博士。研究方向為生成式AI基礎研究以及精準醫療應用。在多個AI頂會獲最佳論文獎(比如NAACL,EMNLP,UAI),在HuggingFace上釋出的開源生物醫學大模型總下載量達數千萬次(比如PubMedBERT,BioGPT,BiomedCLIP,LLaVA-Med),在《自然》上發表首個全切片數字病理學模型 GigaPath(自五月底公佈以來已被下載四十萬次),部分研究成果開始在合作的醫療機構和製藥公司中轉化為應用。

圖片

王晟(Sheng Wang),論文通訊作者,華盛頓大學電腦科學與工程系助理教授,專注於人工智慧與醫學的交叉研究,利用生成式AI解決生物醫學問題。他的科研成果已在《Nature》《Science》《Nature Biotechnology》《Nature Methods》和《The Lancet Oncology》等頂級期刊上發表十餘篇論文,並被Mayo Clinic、Chan Zuckerberg Biohub、UW Medicine、Providence等多家知名醫療機構廣泛應用。

圖片

Mu Wei,論文通訊作者,微軟Health and Life Sciences團隊首席應用科學家,擁有十餘年醫療與金融領域的AI模型研發與部署經驗。他的團隊聚焦於健康領域的多模態AI模型,研究成果涵蓋生物醫學影像解析、數字病理學基礎模型、臨床文件結構化的大模型應用以及大模型錯誤率估計等方向。

圖片

論文地址:https://www.nature.com/articles/s41592-024-02499-w

專案展示網頁:https://microsoft.github.io/BiomedParse/

GitHub:https://aka.ms/biomedparse-release

資料集:https://huggingface.co/datasets/microsoft/BiomedParseData

Azure API網頁:Model catalog - Azure AI Studio

相關文章