《Multi-modal Learning with Missing Modality in Predicting Axillary Lymph Node Metastasis 》
(一)要點
- 研究背景:多模態學習在醫學影像分析中的重要性,尤其是乳腺癌早期患者的腋窩淋巴結轉移(ALNM)診斷。
- 問題陳述:臨床資訊的收集困難,導致多模態模型在實際應用中受限。
- 研究目標:提出一種新的多模態學習框架,解決在預測腋窩淋巴結轉移時臨床資訊可能缺失的問題,提高模型在實際臨床環境中的可用性。
- 概述:提出一個雙向蒸餾(Bidirectional Distillation, BD)框架,該框架由單模態分支和多模態分支組成。單模態分支能夠從多模態分支獲取完整的多模態知識,而多模態分支則從單模態分支學習WSI(全切片影像)的魯棒特徵,兩個分支透過知識蒸餾相互交流,以提高模型對缺失模態的魯棒性,並與Filling、AE、Ensemble這三種處理多模態學習中缺失模態問題的方法進行了對比。
- 靈活性:能夠在測試時根據模態的完整性靈活地開啟或關閉單模態分支。
- 知識蒸餾:透過引入可學習的提示(learnable prompt)在多模態分支和單模態分支之間進行知識轉移。
- 魯棒性:即使在臨床資訊大量缺失的情況下,也能保持較高的效能。
(二)步驟
- 問題定義:識別在測試階段可能缺失的臨床資訊模態,並定義訓練集和測試集。
- 方法設計:開發雙向蒸餾(BD)框架,包含單模態和多模態分支,透過知識蒸餾實現模態間的資訊傳遞。
- 網路結構設計:
3.1 多模態分支(Multi-modal Branch)
- 輸入:接收全切片影像(WSI)和臨床資料
- WSI處理:WSI被分割成多個小區域(patches),輸入到編碼器中提取深度特徵
- 臨床表格資料處理:透過對映轉換為相應的特徵表示
- 融合:使用注意力機制將不同區域的WSI特徵融合為單一的深度特徵表示,並透過一個可學習的非線性投影函式 H(⋅)進行聚合,生成融合特徵
- 分類器:融合後的特徵輸入到分類器中,進行最終的分類任務。
3.2 單模態分支(Single-modal Branch)
- 輸入:僅接收全切片影像(WSI)
- 處理:類似於多模態分支,提取WSI的深度特徵
- 知識蒸餾:透過引入可學習的提示(prompt),模擬臨床資料的缺失,並從多模態分支接收相關知識
3.3 可學習的提示(prompt):
作用:在單模態分支中,當臨床資料缺失時,提示用於模擬這部分資料的缺失,並幫助模型記住相關資訊
實現:透過非線性函式,將提示向量轉換為與臨床資料特徵維度相同的特徵表示,並與WSI的深度特徵結合,參與模型的預測
3.4 知識蒸餾機制
- 目的:確保單模態分支在缺失臨床資料時,仍能獲得多模態分支的知識
- 實現:透過定義蒸餾損失函式,將多模態分支的輸出與單模態分支的輸出進行比較,引導單模態分支學習
- 從多模態到單模態:將多模態分支學到的臨床資料知識傳遞給單模態分支,幫助單模態分支在缺失臨床資料時也能做出準確的預測
- 從單模態到多模態:將單模態分支學到的魯棒特徵傳遞給多模態分支,增強多模態分支對WSI的表示能力
3.5 損失函式設計
- 分類損失:使用交叉熵損失(Cross-Entropy Loss)來衡量模型預測與實際標籤之間的差距。
- 蒸餾損失:用於知識從多模態分支到單模態分支的傳遞,以及反過來從單模態分支到多模態分支的魯棒特徵提取。使用均方誤差(MSE)或散度(KL)等度量方法,來衡量兩個分支輸出之間的差異。
- 多模態分支的總體損失函式:結合了分類損失Lc和蒸餾損失Lf,用於同時最佳化模型的分類能力和知識傳遞能力。
- 單模態分支的總體損失函式:結合了分類損失Lc和蒸餾損失Lf,但重點在於使用單模態資料模擬多模態情況,並從多模態分支中學習。
- 模型訓練與測試
訓練:兩個分支同時訓練,利用隨機梯度下降等最佳化演算法調整模型引數。
測試:根據模態的完整性,靈活選擇使用單模態分支或多模態分支進行預測。
- 效能評估:透過AUC和F1分數評估模型在不同臨床資訊缺失率下的效能。
- 對比:
論文展示了Filling、AE、Ensemble共三種處理多模態學習中缺失模態問題的方法。
6.1 Filling(填充):在用零向量填充缺失的臨床資料。這種方法假設缺失的資料值為零,從而保持模型輸入的維度一致性。
- 原理:在模態完整時,這種方法與LNMP模型相同;在測試時模態缺失的情況下,使用零向量替代缺失的臨床資料。
- 侷限性:這種方法簡單直接,但可能不會提供有關缺失資料的有價值資訊,導致效能下降。
6.2 AE(自編碼器):是一種生成模型,用於自動生成缺失的深度特徵。
- 原理:該模型分為兩個階段訓練。首先,訓練一個LNMP模型,該模型在模態完整的訓練集上學習。然後,訓練一個自編碼器來生成缺失的特徵,自編碼器的輸入和輸出分別是WSI的特徵和臨床資料的特徵。
- 優勢:能夠學習如何從存在的資料中生成缺失的臨床資料的表示。
6.3 Ensemble(整合方法):兩個獨立的網路,一個是WSI識別網路,另一個是臨床資料的分類網路。
- 原理:WSI識別網路輸出預測機率,臨床資料的分類網路也輸出預測機率,最終透過融合這兩個機率得到最終的預測結果。如果沒有臨床資料輸入,只使用WSI識別網路。
- 優勢:在模態完整或不完整的情況下,透過整合兩個網路的預測來提高效能。
這三種方法在論文中被用來與提出的雙向蒸餾(BD)框架進行比較,以展示在處理臨床資料缺失時的不同效能。透過實驗結果,作者證明了BD框架在不同缺失率下的效能優於Filling、AE和Ensemble方法。
(三)提升
- 知識蒸餾:透過從多模態分支到單模態分支的知識傳遞,增強了模型對缺失資料的魯棒性。
- 靈活性:BD框架能夠根據測試資料的模態完整性靈活調整,提高了模型的實用性。
- 效能:在臨床資訊大量缺失的情況下,模型仍能保持較高的診斷效能。
(四)不足
- 泛化能力:論文未詳細討論模型在不同型別的醫學影像和臨床資料上的泛化能力。
- 臨床驗證:缺乏實際臨床環境中的驗證,模型的臨床適用性尚未得到充分證實。
- 計算效率:論文未討論模型的計算效率和在實際醫療系統中的部署問題。
(五)心得
多模態學習的重要性:理解了多模態資料融合在提高醫學影像分析準確性方面的重要性。
知識蒸餾的應用:學習了知識蒸餾作為一種提高模型魯棒性的有效技術。