一文探討可解釋深度學習技術在醫療影像診斷中的應用

機器之心發表於2020-10-20

一文探討可解釋深度學習技術在醫療影像診斷中的應用

作為一種領先的人工智慧方法,深度學習應用於各種醫學診斷任務都是非常有效的,在某些方面甚至超過了人類專家。其中,一些計算機視覺方面的最新技術已經應用於醫學成像任務中,如阿爾茨海默病的分類、肺癌檢測、視網膜疾病檢測等。但是,這些方法都沒有在醫學領域中得以廣泛推廣,除了計算成本高、訓練樣本資料缺乏等因素外,深度學習方法本身的黑盒特性是阻礙其應用的主要原因。

儘管深度學習方法有著比較完備的數學統計原理,但對於給定任務的知識表徵學習尚缺乏明確解釋。深度學習的黑盒特性以及檢查黑盒模型行為工具的缺乏影響了其在眾多領域中的應用,比如醫學領域以及金融領域、自動駕駛領域等。在這些領域中,所使用模型的可解釋性和可靠性是影響終端使用者信任的關鍵因素。由於深度學習模型不可解釋,研究人員無法將模型中的神經元權重直接理解 / 解釋為知識。此外,一些文章的研究結果表明,無論是啟用的幅度或選擇性,還是對網路決策的影響,都不足以決定一個神經元對給定任務的重要性[2] ,即,現有的深度學習模型中的主要引數和結構都不能直接解釋模型。因此,在醫學、金融、自動駕駛等領域中深度學習方法尚未實現廣泛的推廣應用。

可解釋性是指當人們在瞭解或解決一件事情的過程中,能夠獲得所需要的足夠的可以理解的資訊。深度學習方法的可解釋性則是指能夠理解深度學習模型內部機制以及能夠理解深度學習模型的結果。關於 “可解釋性” 英文有兩個對應的單詞,分別是 “Explainability” 和“Interpretability”。這兩個單詞在文獻中經常是互換使用的。一般來說,“Interpretability”主要是指將一個抽象概念(如輸出類別)對映到一個域示例(Domain Example),而 “Explainability” 則是指能夠生成一組域特徵(Domain Features),例如影像的畫素,這些特徵有助於模型的輸出決策。本文聚焦的是醫學影像學背景下深度學習模型的可解釋性(Explainability)研究。

可解釋性在醫學領域中是非常重要的。一個醫療診斷系統必須是透明的(transparent)、可理解的(understandable)、可解釋的(explainable),以獲得醫生、監管者和病人的信任。理想情況下,它應該能夠向所有相關方解釋做出某個決定的完整邏輯。公平、可信地使用人工智慧,是在現實世界中部署人工智慧方法或模型的關鍵因素。本文重點關注可解釋深度學習方法在醫療影像診斷中的應用。由於醫學影像自有的特點,構建用於醫療影像分析的可解釋深度學習模型與其它領域中的應用是不同的。本文依託於綜述性文章[1],首先回顧了可解釋性方法的主要分類以及可解釋深度學習在醫療影像診斷領域中應用的主要方法。然後,結合三篇文章具體分析了可解釋深度學習模型在醫療影像分析中的應用。

一、可解釋深度學習模型在醫療影像分析中的應用綜述[1]

1.1 可解釋性方法分類

首先,我們來了解一下可解釋性方法的分類。針對可解釋性方法的分類問題研究人員提出了多種分類方式,但是這些方式都不是絕對的,即這些方法都是非排他性的,不同的分類方法之間存在重疊。圖 1 給出可解釋性分類方法的示例(可解釋性人工智慧工具(Explainable AI ,XAI)):

一文探討可解釋深度學習技術在醫療影像診斷中的應用

圖 1. XAI 主要分類方法示例

1.1.1 模型特定的方法 vs 模型無關方法(Model Specific vs Model Agnostic)

模型特定的方法基於單個模型的引數進行解釋。例如,基於圖神經網路的可解釋方法(Graph neural network explainer,GNNExplainer)主要針對 GNN 的引數進行解釋。模型無關方法並不侷限於特定的模型體系結構。這些方法不能直接訪問內部模型權重或結構引數,主要適用於事後分析。

1.1.2 全域性方法 vs 區域性方法(Global Methods vs Local Methods)

區域性可解釋性方法主要聚焦於模型的單個輸出結果,一般透過設計能夠解釋特定預測或輸出結果的原因的方法來實現。相反,全域性方法透過利用關於模型、訓練和相關資料的整體知識聚焦於模型本身,它試圖從總體上解釋模型的行為。特徵重要性是全域性方法的一個很好的例子,它試圖找出在所有不同的特徵中對模型效能有更好影響的特徵。

1.1.3 模型前 vs 模型中 vs 模型後方法(Pre-model vs in-model vs post-model)

模型前方法是一類獨立的、不依賴於任何深度學習模型結構的可解釋性方法,主成分分析(PCA)、流形學習中的 t-SNE 都屬於這一類方法。整合在深度學習模型本身中的可解釋性方法稱為模型中方法。模型後方法則是在建立深度學習模型之後實施的,這一類方法主要聚焦於找出模型在訓練過程中究竟學到了什麼。

1.1.4 替代方法 vs 視覺化方法(Surrogate Methods vs Visualization Methods)

替代方法由不同的模型組成一個整體,用於分析其他黑盒模型。透過比較黑盒模型和替代模型來解釋替代模型的決策,從而輔助理解黑盒模型。決策樹(Decision tree)就是替代方法的一個例子。視覺化方法並不是構建一個新的不同的模型,而是透過視覺化的方法,例如啟用圖(Activation Maps),幫助解釋模型的某些部分。

1.2 可解釋深度學習模型在醫療影像分析中的應用分類

具體到醫療影像分析領域,引入可解釋性方法的可解釋深度學習模型主要有兩類:屬性方法(attribution based)和非屬性方法(non-attribution based)。兩類方法的主要區別在於是否已經確定了輸入特徵對目標神經元的聯絡。屬性方法的目標是直接確認輸入特徵對於深度學習網路中目標神經元的貢獻程度。而非屬性方法則是針對給定的專門問題開發並驗證一種可解釋性方法,例如生成專門的注意力、知識或解釋性去輔助實現專門問題的可解釋深度學習。

1.2.1 屬性方法

屬性方法的目標是確定輸入特徵對目標神經元的貢獻,通常將分類問題正確類別的輸出神經元確定為目標神經元。所有輸入特徵的屬性在輸入樣本形狀中的排列形成熱圖(heatmaps),稱為屬性對映(Attribution Maps)。圖 2 給出了不同影像的屬性對映示例[3]。對目標神經元啟用有積極貢獻的特徵用紅色標記,而對啟用有負面影響的特徵則用藍色標記。

一文探討可解釋深度學習技術在醫療影像診斷中的應用

圖 2. 基於 Imagenet 影像的對 VGG-16 屬性的研究示例[3]

擾動(Pertubation)是分析輸入特徵的改變對深度學習模型輸出的影響的最簡單方法,一般可以透過移除、遮蔽或修改某些輸入特徵、執行正向過程(輸出計算)並測量與原始輸出的差異來實現。這一過程類似於在引數控制系統模型中進行的靈敏度分析。將對輸出影響最大的輸入特徵確定為最重要的特徵。對於影像資料來說,實現擾動的一種方法是用灰色斑塊覆蓋掉影像中的一部分進而將它們從系統檢視中遮擋去除掉。以此來突出有效特徵,從而提供正向和負向證據。另一種基於擾動的方法是 Shapley 值取樣(Shapley Value sampling),它透過對每個輸入特徵進行多次取樣來計算近似 Shapely 值,這也是聯合博弈論中描述收益和損失在輸入特徵之間公平分配的一種常用方法。

基於反向傳播的方法(Backpropagation based methods)是另外一種有效的屬性方法。基於反向傳播的方法會透過一次前向和後向網路傳播過程來計算所有輸入特徵的屬性。一些方法會多次執行這些步驟,這種方法與輸入特徵的數量無關,並且計算速度比基於擾動的方法要慢得多。

由於具有良好的易用性,大多數研究可解釋深度學習方法的醫學影像學文獻都使用的是屬性方法。研究人員可以直接使用已有的屬性模型訓練得到一個合適的神經網路結構,這一過程不會增加計算複雜度。這使得人們可以直接使用預先得到的深度學習模型或具有定製體系結構的模型,以在給定任務上獲得最佳效能。前者使這種實現過程更容易,並可以方便的引入諸如轉移學習之類的技術,而後者可用於專門處理特定資料,並透過使用較少的引數避免過度擬合。引入屬性方法可以有效展示出原有的深度學習模型是否能夠學習相關有意義的特徵,或者是否是透過學習偽特徵來過度適應輸入的。這使得研究人員可以調整模型結構和超引數,從而在測試資料上獲得更好的結果,進而得到潛在的真實場景中的設定。

1.2.2 非屬性方法

非屬性方法是指標對給定的專門問題開發並驗證一種可解釋性方法,而不是像屬性方法那樣進行單獨的分析。非屬性方法包括注意力圖(Attention maps)、概念向量(Concept vectors)、相似影像(Similar image)、文字證明(text justification)、專家知識(expert knowledge)、內在解釋性(Intrinsic explainability)等

注意力是深度學習中一個非常有用的概念,是由人類對影像的不同部分或其它型別資料來源的注意方式的不同所啟發產生的。非屬性方法中用到的注意力的主要是作為可解釋的醫學影像分析的深度學習工具。如文獻 [4] 提出了一種新的測試概念啟用向量(Testing Concept Activation Vectors,TCAV)方法,用人類可理解的概念向領域專家解釋不同層次學習的特徵。TCVA 把網路在概念空間中的方向導數作為顯著圖(Saliency Maps)。使用顯著圖來解釋糖尿病性視網膜病變(diabetic retinopathy,DR)水平的預測,能夠成功檢測到視網膜中存在的微動脈瘤和動脈瘤。這就為醫生提供了一個可解釋的理由,即影像中是否存在給定的概念或物理結構。然而,許多醫學中的臨床概念(Clinical Concept),如結構紋理或組織形狀等,並不能直接使用 TCAV 進行充分描述以證明其存在或不存在,此時就需要引入連續的測量指標進行輔助判斷。

基於專家知識的非屬性方法主要有兩種:一是,使用不同的方法將模型特徵與專家知識關聯起來;二是,使用特定領域的知識來制定用於預測和解釋的規則。基於相似影像的非屬性方法為使用者提供了類似標籤的影像作為對給定測試影像進行預測的原因解釋。文字證明方法使用一個給定推理後能夠根據句子或短語來解釋其決策的模型,該模型可以直接與專家和一般使用者進行交流。例如,從分類器的視覺特徵以及嵌入預測中獲取輸入的證明模型可以被用於生成乳腺腫塊分類的診斷語句和視覺化熱圖[5]。內在解釋性是指模型具有根據人類可觀察到的決策邊界或特徵來解釋其決策的能力。一些相對簡單的模型,如迴歸模型、決策樹和支援向量機等,都是可以觀察到決策邊界的,因此是具備內在解釋性的。最近的關於內在解釋性的研究使用不同的方法使深度學習模型本質上可解釋,例如混合使用機器學習分類器和在分割空間中的視覺化特徵等。

二、屬性方法在醫療影像分析中的應用

2.1、視覺化卷積神經網路改善皮膚病變分類的決策支援[6] 

一文探討可解釋深度學習技術在醫療影像診斷中的應用

本文提出了一種屬性方法用於實現可解釋 CNN 在醫療影像診斷中的應用。該方法訓練得到了一個 CNN 用於在皮膚損傷資料庫上進行二元分類,並透過視覺化其特徵圖來檢驗 CNN 學習的特徵。作者透過對不同特徵圖的視覺化對比分析,確定輸入特徵對最終 CNN 目標神經元的貢獻。

2.1.1 方法介紹

本文應用的 CNN 由 4 個卷積塊組成,每個卷積塊由 2 個卷積層組成,然後進行最大池化操作。卷積層的核大小為 3x3,分別有 8、16、32 和 64 個濾波器。接下來是 3 個全連線層,分別有 2056、1024 和 64 個隱藏單元。所有層都引入了校正的線性單位(ReLU)以滿足非線性處理要求。

對於 CNN 的每個特徵對映,透過將特徵對映重新縮放到輸入大小並將啟用對映到透明綠色的部分(深綠色 = 更高啟用度)建立了一個視覺化效果。接下來,作者檢查了所有的視覺效果,並將這些與皮膚科醫生提供的典型特徵對應起來。特別是 CNN(6,7)的最後兩層卷積層,能夠幫助深入瞭解哪些影像區域更能吸引 CNN 的注意力。作者使用公開的 ISIC 檔案的資料(https://isic-archive.com/),組成一個包括 12838 張皮膚鏡影像的訓練庫,分為兩類(11910 個良性病變,928 個惡性病變)。在預處理步驟中,影像被縮小到 300x300 畫素的解析度,並將 RGB 值在標準化處理到 0 和 1 之間。透過選取 224x224 畫素的隨機裁剪來增強訓練集中的影像,並透過旋轉(角度在 0 和 2π之間均勻取樣)、隨機水平和 / 或垂直翻轉、調整亮度(在 - 0.5 和 0.5 之間均勻取樣的因子)、對比度(在 - 0.7 和 0.7 之間均勻取樣的因子)、色調(在 - 0.02 和 0.02 之間均勻取樣的因子)和飽和度(在 0.7 和 1.5 之間均勻取樣的因子)進一步增強每個裁剪後的影像。作者使用 96 個小批次訓練了 192 個 epoch 的網路,並用 Adam 演算法更新了網路的引數,初始學習率為 10±4,一階和二階動量的指數衰減率分別為 0.9 和 0.999。

根據醫生的診斷經驗判斷,邊界不規則的皮膚病變邊界可能表明存在惡性病變。圖 1 所示的特徵圖在皮膚病變的邊界上都有很高的啟用率,但都處於邊界的不同部位。第一張(a)檢測的是病變的底部邊界,而第二張(b)檢測的是左側邊界。

一文探討可解釋深度學習技術在醫療影像診斷中的應用

圖 1. 病變邊界上具有高啟用度的特徵圖。過濾器(a)在底部邊界啟用,而過濾器(b)在左側邊界啟用

同樣的推理也適用於病變內部的顏色。顏色均勻的病變通常是良性的,而嚴重的顏色不規則可能是惡性病變的徵兆。圖 2 所示的特徵圖在病變處有較暗的區域時具有較高的啟用度,這意味著顏色不均勻。

一文探討可解釋深度學習技術在醫療影像診斷中的應用

圖 2. 病灶內較暗區域高啟用的特徵圖,表明病灶顏色不均勻

此外,醫生一般認為皮膚顏色淺的人更容易曬傷,這會增加皮膚惡性病變的發生。因此,皮膚科醫生在檢查患者的皮損時會考慮到患者的皮膚型別。圖 3 所示的特徵圖用於驗證此特性。特徵圖(a)在白皙的皮膚中具有較高啟用度,而特徵圖(b)在具有血管樣結構的粉紅色皮膚上具有高啟用度。

一文探討可解釋深度學習技術在醫療影像診斷中的應用

圖 3. 對皮膚型別具有高啟用度的特徵圖

從皮膚科醫生的角度考慮,頭髮對於最終的診斷沒有影響。如圖 4 所示,毛髮狀的結構區域具有較高啟用度。

一文探討可解釋深度學習技術在醫療影像診斷中的應用

圖 4. 特徵圖(7,8),在毛髮狀結構上具有高啟用度

此外,作者還注意到一些特徵對映對影像中的各種偽造影有很高的啟用率。例如,如圖 5 所示,一些特徵圖在鏡面反射(specular reflections)、凝膠塗抹應用(gel application)或標尺(rulers)上具有高啟用度。這突出了使用機器學習技術時的一些風險,即當這些偽造影在特定類的訓練影像中顯著存在時可能會對網路的輸出產生潛在的偏差。

一文探討可解釋深度學習技術在醫療影像診斷中的應用

圖 5. 各種影像偽造影的高啟用特徵圖,從左到右,鏡面反射、凝膠處理和標尺,這些偽造影可能會對 CNN 的輸出造成偏差

最後,透過特徵圖,圖 6 給出了對不同影像上啟用的全面概述。

一文探討可解釋深度學習技術在醫療影像診斷中的應用

圖 6. 特徵圖總覽

2.1.2 文章小結

本文分析了由 CNN 學習到的皮膚病醫學影像中的特徵,該 CNN 是為皮膚病變分類而訓練得到的。透過視覺化 CNN 的特徵圖可以看到,高階卷積層在與皮膚科醫生所使用的類似的概念中具有較高啟用度,例如病變邊界、病變內的暗區、周圍皮膚等。此外,作者還發現,一些特徵圖在各種影像偽造影區域具有較高啟用度,如鏡面反射、凝膠塗抹應用和標尺。

儘管本文對 CNN 學習到的特徵給出了一些分析和評論,但並不能解釋 CNN 檢測到的特徵與其輸出之間的任何因果關係。此外,透過特徵圖,並沒有發現任何能精確突出皮膚科醫生掃描過程中重點關注的其他結構,如球狀體、圓點、血管結構等。作者認為,為了使 CNN 能夠成為皮膚科醫生更好的決策支援工具,還需要在這一領域進行更多的研究。

三、非屬性方法在醫療影像分析中的應用

3.1、透過深度生成模型學習可解釋的解剖學特徵:在心臟重構中的應用[7] 

一文探討可解釋深度學習技術在醫療影像診斷中的應用

心臟幾何結構和功能的改變是引發心血管疾病的常見原因。然而,目前的心血管疾病診斷方法往往依賴於人的主觀評估以及醫學影像的人工分析。近年來,深度學習方法在醫學影像的分類或分割等任務中應用取得了成功,但在特徵提取和決策過程中仍然缺乏可解釋性,這就限制了深度學習方法在臨床診斷中的價值。

本文提出了一個三維卷積變分自動編碼器(VAE)模型用於心臟病患者的醫療影像分類。該模型利用了從 3D 分割中學習到的可解釋的任務相關解剖學模式(Anatomic Pattern),此外,還允許在影像的原始輸入空間中視覺化和量化所學習到的病理學特定重構模式。

3.1.1 模型分析

本文所提出模型的示意圖如圖 1 所示。輸入 X 為雙通道輸入的受試者在舒張末期(End-diastolic,ED)和收縮末期(end-systolic,ES)的三維左室心肌節段(3D left ventricular myocardial segmentations)。利用三維卷積 VAE,透過編碼器網路學習潛在空間中代表輸入分段 X 的 d 維機率分佈,並將該潛在分佈引數化為 d 維正態分佈 N(μ_i, σ_i),其中,μ_ i 表示平均值,σ_i 為標準差。在訓練過程中,解碼器網路透過從學習到的潛在 d 維流形中取樣向量 z 來學習重建輸入 X 的近似值。同時,一個由多層感知器(MLP)構成的判別網路(在本文中稱為預測網路 prediction)被連線到平均向量μ上,並被訓練用於區分健康志願者(healthy volunteers,HVols)和肥厚型心肌病(hypertrophic cardiomyopathy,HCM)受試者。使用下述損失函式進行端到端訓練:

一文探討可解釋深度學習技術在醫療影像診斷中的應用

其中,L_rec 表示重建損失,可以透過輸入 X 和重建之間的 Sorensen Dice 損失來計算得到 L_rec。L_KL 是 Kullback-Leibler 散度損失,其目的是使 N(μ, σ)儘可能接近其先前的分佈 N(0, 1)。L_MLP 是 MLP 分類任務的交叉熵損失。潛在空間維數為 d=64。

在測試階段,透過將預測得到的μ傳遞到 z(不從潛在空間取樣)來重建每個輸入分段,最後,在訓練階段完成分類任務。

一文探討可解釋深度學習技術在醫療影像診斷中的應用

圖 1. 模型結構

本文提出的模型架構允許在原始分割空間中視覺化網路學習的特徵。利用 MLP 學習到的權值,透過使用鏈式規則將梯度從分類標籤 C 反向傳播到μ_i 來計算疾病分類標籤 C(y_C)的偏導數。給定一個隨機選擇的健康組織形狀,可以使用匯出的梯度沿著潛在編碼可變性的方向移動受試者的潛在表示,使用迭代演算法將該可變性分類到 C 類的機率最大化。從健康形狀的平均潛在表示開始,在每個步驟 t 利用下式迭代更新μ_i:

一文探討可解釋深度學習技術在醫療影像診斷中的應用

本文選擇λ=0.1。最後,每一個步驟 t 的每一個潛在表示μ_t 都可以透過傳遞給 z 的方式來解碼得到分割空間,從而實現相應重建片段的視覺化處理。

3.1.2 實驗分析

本文實驗使用了一個由 686 名 HCMs 患者(57±14 歲,27% 為女性,77% 為白種人,採用標準臨床診斷的 HCM)和 679 名健康志願者(40.6 ±12.8 歲,55% 為女性,69% 為白人)組成的資料庫進行研究。參與者接受了 1.5T 的心血管磁共振(Cardiovascular magnetic resonance,CMR),採用的是西門子(德國埃爾蘭根)或飛利浦(荷蘭貝斯特)裝置。採用平衡的穩態自由進動序列獲得電影影像,包括左心室短軸平面上的一組影像(體素大小為 2.1x1.3x7mm^3,重複時間 / 回波時間為 3.2/1.6ms,翻轉角度為 60°)。使用一個先前發表並得到廣泛驗證的心臟多圖譜分割框架進行舒張末期(ED)和收縮期(ES)的分割。

作為預處理的第一步,採用多圖譜輔助上取樣方案提高了二維疊加分割的影像質量。對於每個分割片段,將基於 landmark 的 20 個 ED 和 ES 的人工標註的高解析度圖扭曲對映到它的空間中。然後應用一個稀疏控制點集的自由形式非剛性配準(最近鄰插值)並與多數投票一致性進行融合。第二步,透過基於 landmark 和強度的剛性配准將所有增強處理後的片段對齊到相同的參考空間中,以消除姿勢的變化影響。在提取左心室心肌標籤後,使用一個以左心室 ED 心肌為中心的邊界框,裁剪每個片段並將其填充到 [x=80, y=80, z=80, t=1] 維。最後,對所有的片段進行人工質量控制,以排除包含層間強烈運動或左心室覆蓋不足的掃描。作為附加測試資料庫,作者選擇了 ACDC MICCAI17 挑戰訓練資料庫中的 20 個 HVOL 和 20 個 HCM,使用上述相同的方法進行預處理。將資料庫劃分成訓練集、評估集和測試集,分別由 537 名(276 名 HVOL,261 名 HCM)、150 名(75 名 HVols,75 名 HCM)和 200 名(100 名 HVols,100 名 HCM)受試者組成。

為了使潛在空間有可解釋性,作者利用了一種潛在空間導航 (latent space navigation) 的方法: 從訓練集中隨機選擇一個健康分割片段,使其分類為 HCM 的機率最大化。圖 2 中右側圖中給出了在 ED 和 ES 階段所選物件的原始片段、對應 VAE 重建結果,以及在潛在空間導航方法的四個不同迭代下重建的片段。圖 2 中左側圖所示,為了進行視覺化展示,使用拉普拉斯特徵對映(Laplacian Eigenmaps,LE)將訓練集片段的潛在 64 維表示μ與在每次迭代 t 中獲得的潛在表示μ_t 一起縮減為二維空間。該技術允許建立一個潛在表示的鄰域圖,可用於監控所研究的從 HVol 簇到 HCM 簇的轉換(淺藍色點)。在右側圖示給出的每個步驟中,透過計算心肌體素的體積來計算每個片段的左心室心肌質量(LV mass,LVM)。此外,還將具有左心室腔標籤的 LV 圖譜分割非剛性地註冊到每個分割片段中,透過計算血量體素(blood pool voxels)的體積來計算左心室壓腔容積(LV cavity volume,LVCV)。最後,對於每個迭代,作者還報告了由預測網路計算得到的成為 HVol 或 HCM 的機率。從 HVol 到 HCM 的幾何轉換過程中,LVM 增高,LVCV 降低,室間隔壁厚度不對稱增加,這也是這種病典型的重塑模式。

一文探討可解釋深度學習技術在醫療影像診斷中的應用

圖 2. 左側,訓練集中每個受試者潛在表示μ的 LE 二維表示(紅色和綠色圓點),透過潛在空間導航方法得到的隨機健康形狀的潛在表示μ_t 的 LE 二維表示(淺藍色圓點);右側,透過潛在空間導航方法得到的隨機健康形狀的潛在表示μ_t 的 LE 二維表示,以及對應於在 4 次示例性迭代時μ_t 的解碼片段,同時還給出了 HVOls 和 HCM 的機率,以及計算出的 LVM 和 LVCV

3.1.3 文章小結

本文提出了一個深度生成模型用於自動分類與心臟重構(cardiac remodeling)相關的心臟病,該模型利用的是直接從三維分割中學習的可解釋任務特定解剖特徵。本文所提出的模型的體系結構經過特殊設計,能夠在原始分割空間中視覺化和量化所學特徵,使分類決策過程具有可解釋性,並有可能實現對疾病嚴重程度的量化分析。此外,作者還提出了一種簡單的方法能夠在網路學習的低維流形中導航,作者給出的實驗結果表明所得到的潛在表示能夠用於監控患者的潛在臨床效用。

本文提出的方法是可解釋深度學習分類方法在醫療影像診斷中的一個有效應用,它可以幫助臨床醫生改進診斷,併為患者分層處理提供參考。這種方法並不侷限於心臟領域,後續可以將其擴充套件到其他與病理形態變化相關的影像分析任務中。

3.2、MDNet:一個語義和視覺可解釋的醫學影像診斷網路[8] 

一文探討可解釋深度學習技術在醫療影像診斷中的應用

近年來,深度學習技術的迅速發展對生物醫學影像領域產生了顯著的影響。例如,經典影像分析任務,如分割和檢測等,支援從醫學後設資料中快速發現知識,幫助專家進行人工診斷和決策。再比如,醫學中的自動決策任務(例如診斷),通常可被視為標準的深度學習分類問題。不過,現有的分類模型隱藏了其結論的基本原理,缺乏可解釋的理由來支援其決策過程,通常不能直接作為輔助診斷的最佳方案。

在臨床實踐中,醫學專家通常會撰寫診斷報告,記錄影像中的顯微發現,以便輔助醫生診斷病情和選擇治療方案。教會深度學習技術 / 模型自動模仿這一過程是可解釋深度學習在醫療影像診斷領域中的有效應用。一個模型如果能夠從視覺和語義上給出其診斷結果的基本原因解釋,那麼這個模型就具有重要的應用價值。

本文提出了一個統一的網路(medical image diagnosis network,MDNet),它可以讀取影像,生成診斷報告,透過症狀描述檢索影像,並將網路注意力視覺化,透過建立醫學影像與診斷報告之間的直接多模態對映為網路診斷過程提供依據。MDNet 的完整應用過程見圖 1。

一文探討可解釋深度學習技術在醫療影像診斷中的應用

圖 1. 用於可解釋性診斷過程的 MDNet

為了驗證 MDNet 的有效性,本文將 MDNet 應用於膀胱癌病理影像資料庫的診斷報告中。在膀胱病理影像中,膀胱組織尿道細胞核大小和密度的變化或尿道腫瘤增厚,均提示癌變。對於這些特徵的準確描述有利於診斷病情,對早期膀胱癌的鑑別至關重要。為了訓練 MDNet,作者重點解決了從報告中直接挖掘判別性影像特徵資訊的問題,並學習了直接從報告句子詞到影像畫素的多模態對映。這個問題在醫療影像診斷中是非常重要的,因為支援診斷結論推理的判別性影像特徵在報告中是 "潛伏" 的,而不是由特定的影像 / 物件標籤明確提供的。有效利用報告中的這些語義資訊,是進行影像語言建模的必要條件。

作者提出,本文是第一個研究開發可解釋的基於注意力的深度學習模型,該模型可以明確地模擬醫學(病理)影像診斷過程。對於影像建模部分,利用 CNN 實現了基於大小變化的影像特徵進行影像表示。對於語言建模部分,利用 LSTM 從報告中挖掘判別資訊,計算有效梯度來指導影像模型訓練。作者使用端到端的訓練方式,將注意力機制整合到語言模型中,並提出增強其與句子中詞(Sentence Words)的視覺特徵一致性,以獲得更清晰的注意力圖。

3.2.1 影像模型

殘差網路 ResNet 能夠實現網路內部的資訊流動。每一個跳連線(Skip-connected)的計算單元稱為剩餘塊。在一個有 L 個殘差塊的 ResNet 中,第 l 個殘差塊的前向輸出 y_L 和損失 L 的梯度即其輸入 y_l 的定義分別為:

一文探討可解釋深度學習技術在醫療影像診斷中的應用(1)

一文探討可解釋深度學習技術在醫療影像診斷中的應用(2)

其中,F_m 由連續批歸一化、整流線性單元(ReLU)和卷積模組組成。

殘差塊中的一個跳轉連線提供了兩條資訊流路徑,因此隨著網路的深入,網路中總的路徑數目呈指數級增長。這種指數整合(Exponential Ensembles)提高了網路效能。ResNet 中連線卷積層的分類模組包括全域性平均池化層(a Global Average Pooling Layer)和全連線層。這兩個層的數學描述如下:

一文探討可解釋深度學習技術在醫療影像診斷中的應用(3)

其中,p^c 表示類別 c 的機率輸出,(i, j)表示空間座標,w^c 表示應用到 p^c 上的全連線層權重矩陣的第 c 列。將公式(1)插入到公式(3)中,p^c 為加和整合輸入的加權平均:

一文探討可解釋深度學習技術在醫療影像診斷中的應用(4)

作者認為,在這種情況下,在分類模組中使用單一的加權函式不是最優的。這是因為所有合集的輸出都共享分類器,以至於其單個特徵的重要性被削弱。為了解決這個問題,作者建議將集合輸出解耦,並對它們分別應用分類器:

一文探討可解釋深度學習技術在醫療影像診斷中的應用(5)

與公式 (4) 相比,公式(5)為每個集合輸出分配了單獨的權重(w_1)^c 和(w_L)^c,這使得分類模組能夠獨立決定來自不同殘差塊的資訊重要性。作者對 ResNet 架構進行 "重新設計" 來實現上述思想,即採用一種新的方式來跳轉連線殘差塊,定義如下。

一文探討可解釋深度學習技術在醫療影像診斷中的應用(6)

其中,⊗為連線操作。將這種跳轉連線方案定義為集合連線(Ensemble Connection)。它允許殘差塊的輸出直接並行地流經並聯的特徵圖到分類層,這樣分類模組給所有網路集合輸出分配權重,並將它們對映到標籤空間。由圖 2 可以看出,這種設計也保證了資訊流的暢通無阻,克服了梯度消失效應。

一文探討可解釋深度學習技術在醫療影像診斷中的應用

圖 2. MDNet 的整體說明,以膀胱影像及其診斷報告為例。影像模型生成一個影像特徵,以任務元組和由輔助注意力銳化(Auxiliary Attention Sharpening,AAS)模組計算的 Conv 特徵嵌入(用於注意力模型)的形式傳遞給 LSTM。LSTM 根據指定的影像特徵型別執行預測任務

3.2.2 語言模型

在語言建模方面,使用 LSTM 透過最大化句子上的聯合機率來建模診斷報告:

一文探討可解釋深度學習技術在醫療影像診斷中的應用(7)

其中,{x0,......,xT }是句子詞(編碼為獨熱向量)。LSTM 引數θ_L 用於計算幾種 LSTM 內部狀態。透過上下文向量 z_t 將 "軟" 注意力機制整合到 LSTM 中,以捕捉區域性的視覺資訊。為了進行預測,LSTM 將上一時間步 x_(t-1)的輸出以及隱藏狀態 h_(t-1)和 z_t 作為輸入,並計算下一個詞 x_t 的機率,如下所示:

一文探討可解釋深度學習技術在醫療影像診斷中的應用(8)

其中,E 為字嵌入矩陣。G_h 將 h_t 解碼到輸出空間。

注意力機制動態計算一個權重向量來提取支援單詞預測的部分影像特徵,該特徵被解釋為一個明確網路捕捉視覺資訊位置的注意力圖。注意力是支援網路視覺解釋能力的主要部分。作者提出了輔助注意力銳化(Auxiliary Attention Sharpening,AAS)模組,以提高注意力機制的學習效果(見圖 2 描述)。與將直接監督放在權重向量 a_t 上的處理方式不同,作者提出利用全域性平均池化的隱含類特異性本地化屬性來解決這個問題,以支援影像 - 語言的對齊處理。利用下式計算 z_t:

一文探討可解釋深度學習技術在醫療影像診斷中的應用 (9)

其中,W_att 和 W_h 為學習嵌入矩陣。C(I)表示由影像模型生成的維度為 512×(14·14)的卷積特徵圖。c 表示透過 w^c 嵌入得到的 196 維的卷積特徵。

經典注意力機制在 LSTM 裡面隱性地學習 w^c。而 AAS 增加了一個額外的監督來顯式學習,以提供更有效的注意力模型訓練,具體可見圖 2。圖 3 給出了經典方法和本文所提出方法的定性對比結果。

一文探討可解釋深度學習技術在醫療影像診斷中的應用

圖 3. 經典方法(中間)和本文方法(右邊)生成的注意力圖。本文方法能夠在關鍵資訊區域(尿道)中產生更多的焦點注意力

3.2.3 網路訓練

CNN 提供一個編碼的影像特徵 F(I)作為 LSTM 輸入 x_0,然後用一個特殊的 START token 作為 x_1 來告知預測過程開始。生成有效的梯度 F(I)是影像模型最佳化的關鍵。

一份完整的醫學診斷報告會對影像中的多種症狀進行全面的描述,然後會具體針對一種或多種型別疾病的給出專門的診斷結論。例如,放射學影像包括多個疾病標籤,每個症狀具體描述一種型別的影像(症狀)特徵。有效地利用不同描述中的語義資訊對透過 LSTM 生成有效的梯度 F(I)至關重要。

在本文方法中,專門令一個 LSTM 從特定的描述中鑑別資訊。所有的描述模型都共享 LSTM。這樣一來,每個影像特徵描述模型就成為了一個生成完整報告的函式,將該函式定義為 K。在訓練階段,給定一個包含 B 對影像和報告的小批次,將小批次傳送到影像模型後對每個樣本進行內部複製,得到一個 K×B 大小的小批次作為 LSTM 的輸入。LSTM 的輸入和輸出分別定義為:

一文探討可解釋深度學習技術在醫療影像診斷中的應用(10)

其中,W_F 表示學習的影像特徵嵌入矩陣,S(e)表示第 e 個影像特徵型別的獨熱表示。使用 (x_1)^e 通知 LSTM 目標任務的開始。在後向傳播階段,將全部複製的梯度 F(I) 融合起來。

整個模型包含了三組引數:影像模型 D 的引數θ_D、語言模型 L 的引數θ_L 和 AAS 模組 M 的引數θ_M。MDNet 的完整最佳化問題如下:

一文探討可解釋深度學習技術在醫療影像診斷中的應用(11)

其中,{I,l_c,l_s}表示訓練三元組。可以直接使用梯度下降演算法求解θ_M 和θ_L。但更新θ_D 需要同時依賴於兩個模組的梯度。本文提出一種反向傳播機制,允許兩個模組的複合梯度相互適應。基於遞迴生成網路和多層感知器的混合體來計算梯度,θ_D 的更新如下:

一文探討可解釋深度學習技術在醫療影像診斷中的應用(12)

3.2.4 實驗分析

本文實驗使用的資料庫為膀胱癌影像診斷報告資料庫(The bladder cancer image and diagnostic report dataset,BCIDR)。該資料庫中的影像採用 20 倍物鏡獲取,從 32 例有乳頭狀尿路上皮腫瘤風險的患者的膀胱組織中提取蘇木精和伊紅(H&E)染色切片,拍攝全幻燈片影像。從這些載玻片中,隨機抽取 1000 張靠近尿路上皮腫瘤的 500x500 RGB 影像(每張幻燈片生成的影像數量略有不同)。使用一個網路介面來顯示每個影像(沒有病人的診斷資訊),然後請病理學家為每個影像提供了一段描述觀察結果的文字,以明確五種型別的細胞外觀特徵,即核多形性狀態(the state of nuclear pleomorphism)、細胞擁擠狀態(cell crowding)、細胞極性(cell polarity)、有絲分裂(mitosis),突出核(prominence of nucleoli)。病理學家給出的診斷結論分為四類:即正常、低惡性潛能乳頭狀尿路上皮腫瘤(papillary urothelial neoplasm of low malignant potential,PUNLMP)/ 低度惡性腫瘤、高度惡性腫瘤和資訊不足。在這個過程之後,四個醫生(非膀胱癌專家)用他們自己的語言撰寫了另外四個文字描述,但是他們在撰寫過程中參考了病理學家的描述以保證準確性。因此,每幅影像中總共有五篇描述報告。每份報告的長度在 30 到 59 個字之間。隨機選取 20%(6/32)的患者資料(包括 200 張影像)作為測試資料,其餘 80% 的患者資料(包括 800 張影像)用於訓練和交叉驗證。

作者選擇經典的影像字幕方案(image captioning scheme)作為基線對比方法[9],該方法首先訓練 CNN 來表示影像,然後訓練 LSTM 生成描述。此外,實驗中使用 GoogLeNet 而不是它最初使用的 VGG,因為前者在 BCIDR 上的效能更好。作者單獨訓練了 MDNet 中的影像模型,記做 EcNet,且訓練了一個小型的 EcNet 用於實驗(深度 38,寬 8,包括 2.3M 引數)。實驗中用於對比的全部模型共享預訓練 GoogleNet 和 EcNet。在訓練 LSTM 時,作者測試了使用和未使用微調 CNNs 的情況。

MDNet 本身是基於端到端的訓練方式得到的,不過為了與基線方法進行對比,作者在消融實驗中測試了兩種使用基線策略訓練 MDNet 的情況。在這兩種情況下沒有應用最佳化處理,因此與基線方法的差異是任務分離的 LSTM 和整合注意力模型。

圖 4 給出了生成報告的實驗結果示例。使用本文提出的注意力模型計算得到了句子引導的注意力,其中每個注意力圖對應一個預測單詞。參考病理學家的觀察結果,本文方法計算得到的注意力圖能夠集中關注於有效資訊區域而避免引入更多的無效資訊區域。

一文探討可解釋深度學習技術在醫療影像診斷中的應用

圖 4. 影像模型預測診斷報告(左上角)。語言模型關注每個預測單詞的特定區域,最受關注的是尿路上皮腫瘤,它被用來診斷癌症的型別

表 1 給出了一個診斷報告生成實驗示例。實驗結果給出了常用的影像字幕評價指標得分,包括 BLEU(B)、METEOR(M)、Rouge-L(R)和 CIDEr(C)。診斷報告的語言結構比自然影像標題更具規則性。實驗結果表明,標準 LSTM 可以捕捉到總體結構,從而得到與 MDNet 相似的度量分數。本文實驗更關注的是訓練得到的模型是否準確地表達了病理意義上的關鍵詞。實驗結果中還給出了從生成的報告句子中提取的預測診斷結論準確性(diagnostic conclusion accuracy,DCA)。由實驗結果可知,MDNet 效果遠優於其它基線方法。此外,實驗結果還表明採用微調預訓練方法,例如 EcNet 和 GoogleNet,能夠獲得更好的效果,但同時會提升模型的不穩定性(標準差較大)。

表 1. 生成描述質量和 DCA 評分的定量評價。P、 F 和 J 分別表示是否使用預先訓練的 CNN、在訓練 LSTM 時是否微調預訓練 CNN,以及是否使用 MDNet。第 5 行和第 6 行為消融實驗結果,GN 和 EN 表示 GoolgeNet 和 EcNet

一文探討可解釋深度學習技術在醫療影像診斷中的應用

3.2.5 文章小結

本文提出了一種非屬性深度學習模型:MDNet,用以建立醫學影像和醫學診斷報告之間的多模態對映關係。MDNet 為可解釋深度學習技術在醫療影像診斷中應用提供了一個新的視角:生成診斷報告和與報告對應的網路關注(Network Attention),藉助於注意力機制使得網路診斷和決策過程具有語義和視覺上的可解釋性。

基於本文的工作,作者提出瞭如下的研究方向:建立大規模病理影像報告資料庫、實現對小生物標記物定位的精細關注、將改進後的 MDNet 應用於全幻燈片診斷等。

四、小結

本文關注的是可解釋深度學習技術在醫療影像診斷中的應用。很多深度學習技術在實際應用中都獲得了較好的效果,例如影像識別、文字識別、語音識別等。這些技術得以推廣應用的領域主要是智慧客服、翻譯、影片監控、搜尋、推薦系統等等,這些領域共通的特點是 “對模型 / 演算法的可解釋性要求不高” 並且“容錯率高”。以智慧客服應用為例,可以利用深度學習技術提高所生成問答語句的準確度,且生成錯誤的回答語句並不會對使用者有直接的危險。但是如何生成的這些文字、不同引數與文字 / 語句 / 字元的關係究竟是什麼,這些問題並沒有答案,在實際應用即使沒有明確這些答案也不影響利用深度學習技術改進智慧客服的水平,人們也不會因為沒有明確答案就否定智慧客服給出的結論。但是在醫學領域,模型 / 演算法的可解釋性要求就非常高了。試想,你會根據一條不知道什麼原因、不知道根據什麼判斷得出的結論去治療疾病麼?你會相信一條不知道如何解釋的病情診斷意見麼?

結合目前應用於醫療影像診斷中的兩類可解釋深度學習方法:屬性方法和非屬性方法,本文具體分析了幾篇文章如何根據 CNN 特徵、利用生成模型或注意力機制實現或分析醫療影像診斷的可解釋性。從幾篇文章的分析結果可以看出,每篇文章提出的方法針對的都是不同疾病影像、不同成像種類的影像,這也是深度學習 / 機器學習方法應用於醫學領域的一個顯著特點:方法是疾病 / 成像模式相關的。不同疾病的影像區別太大,目前的研究主要侷限在針對具體疾病影像具體分析適用的可解釋模型 / 方法。不過,這些方法都是可解釋深度學習技術在醫療影像診斷領域中應用的有益探索,隨著越來越多的研究人員關注可解釋性,期望能推動深度學習技術在醫學領域中的規模化推廣應用。

本文參考引用的文獻:

[1] Singh, Amitojdeep , S. Sengupta , and V. Lakshminarayanan . "Explainable deep learning models in medical image analysis." Journal of Imaging 6.6(2020):52.  https://arxiv.org/pdf/2005.13799.pdf

[2] Meyes, R.; de Puiseau, C.W.; Posada-Moreno, A.; Meisen, T. Under the Hood of Neural Networks: Characterizing Learned Representations by Functional Neuron Populations and Network Ablations. arXiv preprint arXiv:2004.01254 2020.

[3] Alber, M.; Lapuschkin, S.; Seegerer, P.; Hägele, M.; Schütt, K.T.e.a. iNNvestigate neural networks. Journal of Machine Learning Research 2019, 20, 1–8. http://arxiv.org/abs/1808.04260 

[4] Kim, B.; Wattenberg, M.; Gilmer, J.; Cai, C.; Wexler, J.; Viegas, F.; Sayres, R. Interpretability beyond feature attribution: Quantitative testing with concept activation vectors (tcav). arXiv preprint arXiv:1711.11279 2017.

[5] Lee, H.; Kim, S.T.; Ro, Y.M. Generation of Multimodal Justification Using VisualWord Constraint Model for Explainable Computer-Aided Diagnosis. In Interpretability of Machine Intelligence in Medical Image Computing and Multimodal Learning for Clinical Decision Support; Springer, Cham, 2019; pp. 21–29.

[6]  Van Molle, P.; De Strooper, M.; Verbelen, T.; Vankeirsbilck, B.; Simoens, P.; Dhoedt, B. Visualizing convolutional

neural networks to improve decision support for skin lesion classification. In Understanding and Interpreting

Machine Learning in Medical Image Computing Applications; Springer, Cham, 2018; pp. 115–123. https://arxiv.org/pdf/1809.03851.pdf

[7] Biffi, Carlo , et al. "Learning Interpretable Anatomical Features Through Deep Generative Models: Application to Cardiac Remodeling." (2018).

https://arxiv.org/pdf/1807.06843.pdf

[8] Zhang Z , Xie Y , Xing F , et al. MDNet: A Semantically and Visually Interpretable Medical Image Diagnosis Network[J]. 2017:3549-3557.   https://openaccess.thecvf.com/content_cvpr_2017/papers/Zhang_MDNet_A_Semantically_CVPR_2017_paper.pdf

[9] A. Karpathy and L. Fei-Fei. Deep visual-semantic alignments for generating image descriptions. In CVPR, 2015.

分析師介紹:

本文作者為仵冀穎,工學博士,畢業於北京交通大學,曾分別於香港中文大學和香港科技大學擔任助理研究員和研究助理,現從事電子政務領域資訊化新技術研究工作。主要研究方向為模式識別、計算機視覺,愛好科研,希望能保持學習、不斷進步。

關於機器之心全球分析師網路 Synced Global Analyst Network

機器之心全球分析師網路是由機器之心發起的全球性人工智慧專業知識共享網路。在過去的四年裡,已有數百名來自全球各地的 AI 領域專業學生學者、工程專家、業務專家,利用自己的學業工作之餘的閒暇時間,透過線上分享、專欄解讀、知識庫構建、報告發布、評測及專案諮詢等形式與全球 AI 社群共享自己的研究思路、工程經驗及行業洞察等專業知識,並從中獲得了自身的能力成長、經驗積累及職業發展。

相關文章