多模態學習之論文閱讀：《PREDICTING AXILLARY LYMPH NODE METASTASIS IN EARLY BREAST CANCER USING DEEP LEARNING ON PRIMARY TUMOR BIOPSY SLIDES》

《PREDICTING AXILLARY LYMPH NODE METASTASIS IN EARLY BREAST CANCER USING DEEP LEARNING ON PRIMARY TUMOR BIOPSY SLIDES》

（一）要點

（二）步驟

訓練佇列840名患者，獨立測試佇列218名患者
使用預訓練的VGG網路作為WSI特徵提取器
整合了臨床資料，進一步提高預測的準確度
臨床資料的特徵提取：臨床資料經過預處理，數值型資料透過標準化處理（減去均值並縮放到單位方差），以消除資料範圍和量綱的影響；類別型資料透過獨熱編碼（One-hot encoding）轉換為數值型特徵，使得模型能夠平等地處理不同類別的屬性。

多模態學習之論文閱讀：《PREDICTING AXILLARY LYMPH NODE METASTASIS IN EARLY BREAST CANCER USING DEEP LEARNING ON PRIMARY TUMOR BIOPSY SLIDES》

多模態特徵維度匹配：由於影像特徵的維度通常遠大於臨床特徵的維度，為了將兩者融合，需要使臨床特徵的維度與影像特徵的維度相匹配。文中提到的技術是將臨床特徵向量複製多次。例如，如果臨床特徵的維度是10，而影像特徵的維度是1000，那麼可以將臨床特徵複製100次，使其維度也達到1000。
特徵融合：將複製後的臨床特徵與影像特徵在相應維度上進行拼接或連線，形成一個統一的特徵向量。

多模態學習之論文閱讀：《PREDICTING AXILLARY LYMPH NODE METASTASIS IN EARLY BREAST CANCER USING DEEP LEARNING ON PRIMARY TUMOR BIOPSY SLIDES》

透過兩個全連線層構造注意力網路，將每個例項的特徵透過注意力機制加權聚合，以形成對整個影像包的全域性特徵表示，過程中採用了softmax函式計算機率分佈，使得所有例項的注意力分數之和為1。
提到注意力機制能夠提供模型決策過程的視覺化和解釋性，具體是根據softmax後每個例項的注意力分數進行解釋分析。
融合後的特徵被輸入到分類器中。使用交叉熵損失函式（Cross-entropy loss）來計算預測輸出和實際標籤之間的差異，並根據此差異更新模型引數。
訓練過程也採用了一些最佳化策略，如透過使用餘弦退火預熱重啟策略，論文中的模型能夠在訓練過程中更有效地更新引數，提高模型的泛化能力和收斂速度。

多模態學習之論文閱讀：《PREDICTING AXILLARY LYMPH NODE METASTASIS IN EARLY BREAST CANCER USING DEEP LEARNING ON PRIMARY TUMOR BIOPSY SLIDES》

（三）提升

1. 深度學習與多例項學習結合

2. 臨床資料融合

3. 年輕患者群體的最佳化（特別針對50歲以下患者群體進行了模型最佳化）

4. 效能提升：相較於僅使用臨床資料的模型，該模型在獨立測試佇列中實現了更高的準確度

5. 區分不同轉移程度：模型能夠區分低度和高度ALN轉移，為臨床治療提供了更細緻的指導

6. 模型泛化能力：在獨立測試佇列中驗證了模型的泛化能力，確保了模型的實用性。

（四）不足

非端到端架構：沒有采用自動分割腫瘤區域的目標提取演算法，僅依靠標註資料代替了ROI過程，vgg僅用於對ROI的特徵處理，沒有做到端到端的模型架構。
回顧性研究限制：作為一項回顧性研究，可能存在選擇偏差和無法控制的混雜因素。
複製臨床特徵的缺陷（個人分析）：雖能夠有效地解決不同來源特徵維度不一致的問題，使得模型能夠同時利用影像資訊和臨床資訊進行綜合分析。然而會增加資料的維度，可能需要進一步的降維處理或正則化技術來防止模型過擬合。此外，複製臨床特徵可能會使得模型對某些臨床特徵賦予了過高的權重點。

（五）心得

多例項學習（Multiple Instance Learning，MIL）是一種機器學習正規化，與傳統的監督學習不同，在MIL中，訓練樣本是由一組例項組成的"包"（bag），每個包內包含多個例項，但只有包的標籤是已知的，而不是每個例項的標籤。
MIL的關鍵優勢在於不需要對影像中的每個例項進行精確標註（這在醫學影像分析中尤其重要，因為手動標註既耗時又成本高昂），其能夠處理和利用部分標籤資訊，這使得它在那些難以或昂貴地獲得每個例項精確標籤的領域特別有用。
在醫學影像分析中，通常將一張影像或一組影像視為一個"包"（bag），影像中感興趣的區域（如病灶、細胞或組織結構）被視為包內的"例項"（instance）。並非所有例項都有標籤，只有bag的總體標籤是已知的，例如，一個影像包可能被標記為“良性”或“惡性”。
例項級別的特徵表示：使用卷積神經網路（CNN）等深度學習模型從每個例項中提取特徵。
例項加權：透過注意力機制或其他方式為每個例項分配權重，這些權重反映了例項對於預測包標籤的重要性。
bag級別預測：將加權的例項特徵聚合起來，形成包的全域性特徵表示，並用它來預測包的標籤。

相關文章