醫學影像AI為什麼需要小資料學習?

新聞助手發表於2021-01-27

近年來,深度神經網路的出現一定程度上顛覆了醫學影像行業的發展路徑,人工智慧介入下,影像相關科室繁雜重複的工作逐漸由演算法接替,醫生資源短缺這一問題似乎出現瞭解決的希望。

但AI亦有其限制。從當前發展情況看,有效的人工智慧演算法大多聚集於存在大量標準化資料的病種,畢竟要實現高質量AI診斷,需要大量的高質量標註影像進行前期的演算法訓練。

這一資料相關的特質限制了醫學AI的廣泛應用。現實之中,罕見病和疑難雜症的資料較少,囿於患者隱私、資料安全等問題,資料收集行為的開展也較為困難。此外,醫學影像的標註過程成本較高,對於不同的標註內容往往需要開發特殊的標註工具並交由有經驗的醫生進行。多方面原因協同下,某些醫學影像問題的高標註質量醫學影像資料集非常稀缺,其AI自然也難以孕育。

好在AI面臨的困境並非沒有解法。回想起來,人類只需透過極少的樣本就能辨別新的事物,那麼機器是否能以複製人類的這一能力呢?答案或許是可以的。最近醫學AI領域興起的一系列小資料學習方法便是以模仿人類的判別能力為目標,嘗試透過減少需要的資料量,實現特定目標影像的識別,最終克服醫學領域資料量少、標準缺乏的問題。

以先驗知識為基礎的小樣本學習

要實現小樣本學習(few-shot learning)必須要具備一些特定條件,譬如模型學習前已經吸收了一定類別的大量資料後,再加之新類別的極少量資料,最終實現小樣本模型的形成。因此,小樣本學習的關鍵是在演算法中納入合適的先驗知識。

具體到醫療領域之中,很多醫學影像模態中廣泛存在器官的位置先驗資訊,例如CT影像中肝臟主要位於腹腔的右上位置,而脾則在腹腔的左上部分,這些位置先驗資訊對於AI識別特定類別的器官有非常大的幫助。

體素科技在頂級會議ISBI2021上發表的論文《Location Sensitive Local Prototype Network For Few-shot Medical Image Segmentation》便提出了一種基於位置先驗資訊的區域性原型網路(location sensitive local prototype network,見圖1)。該論文以肝和脾影像資料構建訓練集,再將其收穫先驗資訊的演算法加入少量腎部影像分割任務,實現基於小樣本學習的AI模型訓練。

醫學影像AI為什麼需要小資料學習?

圖一:基於位置先驗資訊的區域性原型網路框架

在公開的CT器官分割資料集Visceral進行試驗後,其結果表明,論文提出的新框架比目前的最好方法在Dice Score指標上提高了10%,顯著推進了小樣本下的器官分割這一領域的技術進展。

利用極端變化一致性來提高資料不足情況下醫學影像分割的魯棒性

除了資料獲取困難這一問題外,研究人員在訓練時還會遭遇資料來源不統一的問題。

由於醫學影像的拍攝裝置和拍攝環境和方式多樣,各個醫院和體檢中心之間的人群分佈差異明顯,因此很難收集和標註足量的訓練資料充分涵蓋不同來源的影像特徵。如果訓練資料和實際測試資料存在明顯的的分佈差異(domain shift),生成的模型往往效能不佳。

體素科技在頂級會議MICCAI2020上發表的《Extreme Consistency: Overcoming Annotation Scarcity and Domain Shifts》為解決這一問題提供了方向。具體而言,該論文提出了極端一致性(extreme consistency)的概念,核心思想是在訓練資料中加入極端的影像變換(比如大量強烈的亮度, 對比度, 旋轉, 尺寸變換),以增加訓練資料的多樣性,並假設這些極端的影像變換並不影響影像的語義含義。舉例來說,眼底影像中的血管在經過極端的旋轉和亮度對比度等變換後,依然能夠對應血管本身。

為了實現這一構想,論文設計了一種半監督演算法(semi-supervised learning, 見圖2), 迫使模型遵守極端變化前和變化後的語義一致性這一約束,進而提高模型對於分佈差異的魯棒性。該論文在皮膚病變分割資料集(ISIC)和兩個眼底血管分割資料集 (HRF和STARE)上進行了測試,展現了在資料不足和分佈差異較大情況下,演算法的魯棒性和準確性的優勢。 醫學影像AI為什麼需要小資料學習?

圖2:左邊是基於極端一致性的半監督學習方法的虛擬碼,右邊是網路結構示意圖。 

少標註和弱標註情況下醫學影像分割如何解決?

除了資料的來源問題,對已有資料進行分割標註同樣需要研究人員付出大量成本。在中國,影像資料標註非常昂貴,尤其是畫素級別的醫學影像分割標註,人力支出更為巨大。因此,近期大量的研究工作試圖解決不完善醫學影像分割資料集中的兩類典型問題:

  • 標註稀缺。資料集中只有極稀少的影像資料有分割標註。
  • 弱標籤。資料集中的影像資料只有部分標註、或者標註帶有噪聲、或者只有影像級的類別標籤沒有逐畫素的分割標註。

對於這兩問題,體素科技發表在頂級期刊《Medical Image Analysis》中的文章《Embracing Imperfect Datasets: A Review of Deep Learning Solutions for Medical Image Segmentation》系統性地對現有方案進行了詳細的回顧和分類總結(見圖3所示)。根據醫學影像分割資料集的不同缺陷,論文對這些方案的選擇給出了實際的指導建議。

醫學影像AI為什麼需要小資料學習?

圖3:醫學分割影像資料集資料集缺陷問題及相應訓練策略總結

相關文章