AI成像新標準,僅1%原始資料可達最佳效能,通用醫學基礎模型登Nature子刊

ScienceAI發表於2024-07-22

圖片

編輯 | 白菜葉

經過大規模預訓練的基礎模型已在非醫學領域取得了巨大成功。然而,訓練這些模型通常需要大量全面的資料集,這與生物醫學成像中常見的較小且更專業的資料集形成鮮明對比。

德國弗勞恩霍夫數字醫學研究所(Fraunhofer Institute for Digital Medicine MEVIS)的研究人員提出了一種多工學習策略,將訓練任務數量與記憶體需求分離開來。

他們在多工資料庫(包括斷層掃描、顯微鏡和 X 射線影像)上訓練了一個通用生物醫學預訓練模型 (UMedPT),並採用了各種標記策略,例如分類、分割和物體檢測。UMedPT 基礎模型的表現優於 ImageNet 預訓練和之前的 STOA 模型。

在外部獨立驗證中,使用 UMedPT 提取的成像特徵被證明為跨中心可轉移性樹立了新標準。

該研究以「Overcoming data scarcity in biomedical imaging with a foundational multi-task model」為題,於 2024 年 7 月 19 日釋出在《Nature Computational Science》。

圖片

深度學習由於其學習和提取有用影像表示的能力,正在逐步革新生物醫學影像分析。

一般的方法是透過在大規模自然影像資料集(如 ImageNet 或 LAION)上預訓練模型,再針對具體任務進行微調或直接使用預訓練特徵。但是微調需要更多計算資源。

同時,生物醫學成像領域需要大量標註資料進行有效的深度學習預訓練,但這類資料往往比較稀缺。

多工學習(MTL)透過同時訓練一個模型來解決多個任務,提供了資料稀缺的解決方案。它利用生物醫學成像中許多小型和中型資料集,預訓練適用於所有任務的影像表示,適用於資料稀缺的領域。

MTL 已被應用於多種方式的生物醫學影像分析,包括從不同任務的多個小型和中型資料集訓練,以及在單個影像上使用多種標籤型別,證明了共享特徵可以提高任務效能。

在最新的研究中,為了將具有不同標籤型別的多個資料集結合起來進行大規模預訓練,MEVIS 研究所的研究人員引入了一種多工訓練策略和相應的模型架構,專門透過學習跨不同模態、疾病和標籤型別的多功能表示來解決生物醫學成像中的資料稀缺問題。

圖片

圖示:研究概述。(來源:論文)

為了應對大規模多工學習中遇到的記憶體限制,該方法採用了基於梯度累積的訓練迴圈,其擴充套件幾乎不受訓練任務數量的限制。

在此基礎上,研究人員使用 17 個任務及其原始註釋訓練了一個名為 UMedPT 的全監督生物醫學成像基礎模型。

下圖展示了該團隊的神經網路的架構,它由共享塊組成,包括編碼器、分割解碼器和定位解碼器,以及特定於任務的頭。共享塊經過訓練可適用於所有預訓練任務,有助於提取通用特徵,而特定任務的主管則處理特定於標籤的損失計算和預測。

設定任務包括三種監督標籤型別:物體檢測、分割和分類。例如,分類任務可以對二元生物標記進行建模,分割任務可以提取空間資訊,物體檢測任務可用於根據細胞數量訓練生物標記。

圖片

圖示:UMedPT 的架構。(來源:論文)

UMedPT 在域內和域外任務中始終匹配或超越預訓練的 ImageNet 網路,同時在直接應用影像表示(凍結)和微調設定時,使用較少的訓練資料保持強勁的效能。

圖片

圖示:域內任務的結果。(來源:論文)

對於與預訓練資料庫相關的分類任務,UMedPT 僅使用 1% 的原始訓練資料,就能夠在所有配置上達到 ImageNet 基線的最佳效能。與使用微調的模型相比,該模型使用凍結編碼器實現了更高的效能。

圖片

圖示:域外任務的結果(來源:論文)

對於領域外的任務,即使應用了微調,UMedPT 也能夠僅使用 50% 或更少的資料來匹配 ImageNet 的效能。

另外,研究人員將 UMedPT 的效能與文獻中報告的結果進行了比較。使用凍結編碼器配置時,UMedPT 在大多數任務中都超過了外部參考結果。在此設定下,它還超越了 MedMNIST 資料庫 16 中的平均曲線下面積 (AUC)。

值得注意的是,UMedPT 的凍結應用未超越參考結果的任務屬於領域外(乳腺癌分類 BC-Bach-WSI 和 CNS 腫瘤診斷 CNS-MRI)。透過微調,使用 UMedPT 進行預訓練在所有任務中均超過了外部參考結果。

圖片

圖示:UMedPT 在不同成像領域的任務上達到最新效能所需的資料量。(來源:論文)

作為資料稀缺領域未來發展的基礎,UMedPT 開闢了深度學習在收集大量資料特別具有挑戰性的醫學領域的應用前景,例如罕見疾病和兒科影像。

論文連結:https://www.nature.com/articles/s43588-024-00662-z

相關內容:https://www.nature.com/articles/s43588-024-00658-9

相關文章