醫學影像彩色化相關--20201208論文筆記Bridging the gap between Natural and Medical Images through Deep Colorization

竹簍有個天發表於2020-12-08

4. Bridging the gap between Natural and Medical Images through Deep Colorization

摘要:深度學習通過在大規模資料集上進行訓練而蓬勃發展。但在醫學影像診斷的許多應用中,由於隱私性、採集同質性差、標註成本高等原因,仍然無法獲取大量資料。在這種情況下,從自然影像集合中轉移學習是一種標準做法,它試圖通過預先訓練的模型微調來一次性處理形狀、紋理和顏色差異。在這項工作中,我們建議解開這些挑戰,並設計一個專門的網路模組,側重於顏色適應。我們將顏色模組的從頭學習與不同分類骨幹的轉移學習相結合,獲得一個端到端、易於訓練的架構,用於x射線影像診斷識別。大量的實驗表明,我們的方法在資料稀缺的情況下是特別有效的,併為在多個醫學資料集之間進一步傳輸學習到的顏色資訊提供了新的途徑。

1.引言

在過去的幾年裡,深度學習在計算機視覺方面取得了重大突破,甚至在一些任務[1]上達到了超人的表現。這種成功的關鍵因素之一是大量的精心策劃的影像集合的可用性,深度模型可以在這些影像集合上進行訓練。由於RGB相機的廣泛普及,收集大量影像相對容易:昂貴的部分仍然是為影像內容獲得可靠的標籤。當從自然影像轉向處理多光譜資訊的具體應用,如遙感[2]或醫學診斷[3]中的單通道資料時,這就特別具有挑戰性。特別是,後者需要獲得私人醫院的記錄和經驗豐富的醫生提供的昂貴的手工註釋。直到最近,人們才努力為社群提供了大量的醫學參考資料集[4]、[5],這些資料仍然只涵蓋了一些特定的獲取方式、身體部位和病理標記。一種彌補缺乏大量資料收集的方法是從資料豐富的領域轉移知識。雖然很吸引人,但利用基於照片的源模型進行診斷任務意味著要開發一種方法來縮小自然影像和醫學影像之間的差距,並處理由於紋理、形狀和顏色而引起的分佈變化。為了實現這一目標,最標準的策略是利用在像ImageNet[8]這樣的大型資料集上預先訓練過的現有網路架構(如ResNet[6]、DenseNet[7]),並簡單地對有限數量的醫學影像[9]進行引數微調。通過這種方式,網路保持了固定的知識容量,原始模型的權重逐漸被遺忘,取而代之的是對新領域有用的權重。一般採用權衡之間的自由提供重量修改和訓練資料的基數:只有大集合支援一個完整的學習模型的引數,並在這些情況下pretrained模型仍然是一個相關的工具來減少訓練時間從頭開始學習。

在我們的工作中,我們提出了一種新的轉移策略,通過關注顏色適應,它結合了從零開始學習的好處和利用預先訓練的源模型的好處。自然影像的三種標準顏色通道編碼的資訊與在灰度x射線掃描中儲存的資訊極為不同,我們將展示如何重組這種轉換,以有限的註釋資料為學習提供必要的支援。具體地說,我們引入了一個有效的著色模組,該模組可以與在ImageNet上預先訓練權重的不同骨架組合在一起。結果是一個端到端的,易於訓練的架構,其中顏色模組從頭學習,而主幹可以保持固定或微調診斷多標籤識別。一旦學習,著色模組可以進一步轉移和重用在類似於主要任務的醫療任務(示意圖概述見圖1)。在下面我們第一次提供了一個簡短的總結以前的工作轉移學習在醫學成像,也呈現在概述現有的影像彩色化方法(見第二秒。)。然後在第三節,我們描述的細節多階段方法,討論如何設計彩色化模組和展示三個變種。最後,第四節介紹了我們的實驗設定,第五節展示了提出的方法在三種先進的x射線資料集上的效能。最後,第六部分總結了我們的研究結果並提出了未來的研究方向。

2.相關工作

A.醫學影像的轉移學習

在ImageNet上訓練的卷積神經網路(CNNs)已經被證明可以很好地轉移到各種醫學成像任務上,從ImageNet轉移學習已經迅速成為[15]領域的標準實踐。然而,與RGB影像相比,醫學影像具有獨特的特徵:它們通常是灰度級的,通常是12位的高解析度影像,具有強烈的紋理內容。由於光照條件的變化,自然影像分類主要依賴於區域性對比,而在醫學影像中,強度值通常是組織類別或病理類別的資訊,在某些情況下甚至可以標準化。因此,一個合理的問題是,從醫學影像進行遷移學習是否比從RGB(非醫學)影像進行遷移學習更有效,或者更普遍地說,有哪些策略可以促進從一個領域到另一個領域的遷移。在醫療源和非醫療源轉移方面,很少有面對面的比較,而且他們的結果並不總是決定性的,這也是由於不同的資料基數、轉移策略和成像方式。一項由Cheplygina等人進行的研究[16]回顧了12篇比較不同源arget組合和對比結果的論文:大約一半的作品表明,從非醫學領域傳輸優於從其他醫學資料集傳輸,另一半則支援相反的論點。證據表明,更大的資料集不一定對訓練前更好,多樣性可能發揮重要作用,而與RGB資料集[9]相比,醫學資料集往往是非常同質的。通過醫學資料集進行預訓練,最好是通過相同的模態[17]和相同的身體部位[13]、[12]。在胸部x光的情況下,ImageNet的預訓練被發現與肌肉骨骼x光的預訓練一樣有效,但不如另一個胸部x光資料[13]的預訓練有效。比較遷移學習和從零開始訓練的研究較少。他們認為,對預先訓練好的模型進行微調至少和從頭開始訓練一樣好,並且對小型資料集[11]、[16]具有實質性的優勢。在最近worsk大規模資料集上,微調沒有提供效能方面的優勢,但仍然允許在訓練[18]上一個顯著的加速。儘管如此,為所有可能的模式和疾病收集大規模資料集是完全不可行的,從ImageNet轉移學習仍然是醫學成像,特別是二維影像的深度學習模型訓練的突出策略之一。可選的轉移方案是基於偽著色的轉移方案,但相關文獻相當有限。通過在每個通道上應用不同手工製作的視窗/水平設定,可以從CT掃描生成偽彩色影像,其方式類似於放射科醫師增強不同組織[11]的對比度:然而,這種技術不能轉移到其他模式,如x射線,其強度值沒有標準化。Teare等人設計了一種遺傳演算法來發現一種用於乳房x線照射[19]的偽彩色增強方案:每個基因組編碼三個預處理函式序列及其引數(如模糊、對比度增強、掩蔽),每個顏色通道一個序列,選擇能夠最大化CNN準確性的預處理。這種方法,雖然在準確性上有了很大的提高,但在計算上是昂貴的,因為它需要訓練和測試許多不同的網路;為了減少計算需求,這一步需要使用較淺的網路或較小的資料集。

我們的工作與上述所有轉移學習方向有關,但引入了一種新的基於色彩的方法來利用非醫療資源。在解決感興趣的醫學識別任務時,我們提出讓網路學習自己的最優顏色變換來縮小域間隙。通過這種方式,我們的方法可以充分利用所有可用的資料訓練的低成本更新只有一個專用網路的一部分,它不需要任何強大的轉換是潛在有用的假設,並且可以無縫地適應任何型別的輸入方式和任何pre-trained CNN架構。

圖1所示。一個示意圖表示提出的多階段轉移學習管道。首先和分類器C一起從零開始訓練著色模組T,同時保持對預先訓練好的CNN主幹E的凍結,學習最大化分類準確率的對映。然後,對整個網路進行微調,以學習對目標任務有用的特徵,同時調整色彩對映。最後,在一個不同的資料集上評估完整的訓練過的網路:這裡我們凍結{T, E}模組,只訓練最終的分類層C。

B.影像彩色化

影像著色方法產生RGB影像從一個單一的通道或灰度。不出意料的是,近年來,基於cnn的方法在很大程度上優於基於手工製作特徵的淺層學習模型,因為它利用了大量的自然影像,而這些影像的顏色是被人為去除的。實際上,最常見的方法是學習對應的灰度和RGB影像對之間的引數對映,要麼顯式地編碼每種顏色[20]、[21]的概率分佈,要麼通過生成的敵對網路[22]、[23]隱式地進行編碼。當然,這些策略不能在目標顏色空間未知的醫學領域中使用。除了主要與風格轉換相關的工作外,色彩技術也被研究用於熱影像[24]的工業應用,以及在機器人技術中,單一通道深度影像[25],[26]被廣泛使用。特別有趣的是在[27]的工作,在其中作者最近提出通過一個過程幻覺顏色從深度影像分類直接指導。所採用的架構可以充分利用預先訓練好的基於imagenet的模型,因為深度影像雖然在紋理上有很大的不同,但包含了與RGB相似的物體形狀。受到這項工作的啟發,我們提出了超越它的建議,為醫學影像定義定製的著色模組,以及一個涉及到預訓練主骨幹端到端更新的多階段傳輸過程。

3.通過著色轉移學習

A.學習策略

B.彩色化模組

面臨的主要挑戰的基礎學習方法問題描述如何設計彩色化模組t .建築在[27],我們考慮兩個架構,使用卷積和池層將x ={1×320×320}灰度影像到一個x ={64×80×80}張量,然後根據輸入的序列8殘塊,如圖2所示。這兩種架構在最後的上取樣部分有所不同:我們使用[27]中的轉置卷積來表示反摺積的情況,而在畫素洗印中,我們基於最初為超解析度應用[28]開發的同源技術進行了修改。這種技術可以減少由上取樣引入的棋盤圖偽影。我們還定義了著色模組的第三種變體,如下所示為ColorU(圖3)。它的靈感來自於U-Net架構[29]和[30],但是呈現了不同的塊。輸入影像經過3個下采樣塊(ColorDown), 2個上取樣塊(ColorUp)和另一個最終的上取樣塊(ColorOut)生成彩色輸出影像。所有這些塊都使用條帶卷積而不是空間池函式,允許模型學習如何向上/向下取樣,而不是像[31]中提出的那樣使用固定方法。每個ColorDown塊由兩個卷積層(conv with kernel 3 * 3和4 * 4)和一個批範數層組成。每個ColorUp塊由一個轉置卷積層(4×4)、兩個conv層和一個BatchNorm層組成。ColorOut模型與ColorUp有類似的結構,但是沒有最後的BatchNorm層。所有conv層都有一個洩漏的ReLU啟用,在BatchNorm之前應用,除了輸出彩色影像的最後conv層。相對於DECONV和Pixel Shuffle, ColorU的效率要高得多,其所需學習引數的比率約為1/3。

圖2所示。DECONV和Pixel Shuffle著色模組的概述:它們共享了主要結構,只是在最後的上取樣層有所不同。剩餘塊的詳細資訊顯示在底部虛線框中。

圖3所示。ColorU架構。輸入影像經過3個下采樣塊(ColorDown), 2個上取樣塊(ColorUp)和最後一個上取樣著色塊(ColorOut)。對於每個塊,報告輸入和輸出通道的數量。

4.實驗

A.資料集

1)胸片:我們在CheXpert[4]和ChestX-ray14[32]兩大胸片資料集上進行實驗。CheXpert訓練集包含65,240名患者的224,316張胸片,而ChestX-ray14包含32,717名患者的112,000張胸片。兩個資料集被標記為存在或不存在的14獨立的觀察開始從放射學報告使用兩個不同的半自動標籤。我們在這裡重點關注五個病理線索:肺不張、心臟腫大、實變、水腫和胸腔積液,這些在兩個資料集中都很常見,並且在文獻[4]中可以找到相關結果。CheXpert ground truth將報告和標記過程中的不確定性考慮在內,將每個觀測值指定為三個值之一:積極、消極和不確定。在訓練過程中,[4]比較了處理不確定標籤的不同策略:將不確定值轉換為正(UOnes)或負(u - 0),或忽略不確定樣本(U-Ignore)。對於每一項觀察,我們根據先前的結果採用最佳的治療方案:肺不張(U-Ones)、心臟肥大(u - 0)、實變(u - 0)、水腫(UOnes)和胸腔積液(U-Ones)。

2) MURA: MURA[5]包括約1.2萬名患者的40561張多面骨骼肌x線照片,顯示了身體各種部位的正常或異常。在我們的分析中,我們只考慮了一個解剖部分——肩部,對應8,379張影像(2,694例患者)。

b .實驗裝置

我們在兩個基線網路上做了實驗,我們架構的E模組分別對應於ResNet18和DenseNet121。在CheXpert和ChestX-ray14上工作時,輸出層是五個二進位制頭(C = 5)的組合,每個觀測一個。對於MURA,任務簡化為C = 1的簡單二值分類問題。在訓練過程中使用標準的資料增強,將非正方形影像隨機裁剪並重新縮放到網路輸入大小(320×320),然後隨機旋轉- 10◦- 10◦)和縮放(0% - 10%),概率為75%。所有的影像用CheXpert上計算的平均值和標準差進行歸一化。所有的網路被訓練直到收斂使用SGD優化器與一個週期策略[33]。學習率(LR) finder被用來確定每個網路[34]的最大學習率。每4800次迭代都節省了權重,並且使用了具有最高驗證效能的檢查點。

c .評價

使用ROC曲線下面積(AUC)評估其表現。對於多標籤資料集(CheXpert和ChestXray14),計算每次觀察的AUC,然後用平均AUC來總結效能。對於每個配置,以不同的隨機初始化方式重複訓練三次。採用配對t檢驗對不同遷移學習程式進行比較。我們使用benjaminii - hochberg程式[35]控制了多重假設檢驗;調整後的p值< 0.05為差異有統計學意義。

圖4所示。針對ResNet18和DenseNet121架構優化的不同著色模組的輸出。在最上面一行中,只有著色模組C被訓練,凍結了編碼器e。最下面一行顯示了所有層端到端的微調後的結果。

All the colorization modules are available at https://gitlab.com/grains2/DeepMedicalColorization.

相關文章