導讀
本文是計算機視覺領域頂級會議ICCV 2019入選論文 《基於醫療影像的早期診斷中不確定樣本的檢出(Learning with Unsure Data for Medical Image Diagnosis)》的解讀。
該論文由北京大學王亦洲課題組與微軟亞洲研究院、首都醫科大學、深睿醫療合作,研究了基於醫療影像進行早期診斷,所遇到的不確定樣本問題。所謂不確定樣本,是指在早期診斷中無法給出明確的“是否患病”診斷的樣本。這一型別資料在醫療影像中廣泛存在。本文提出的 UDM 模型旨在將這部分資料準確識別。肺結節和阿爾茨海默疾病的實驗結果表明,本文提出的方法能夠很好地將這部分樣本準確識別。
什麼是“不確定性醫療資料”?
基於醫療影像的早期疾病診斷可以大大提高疾病治癒率。然而處於早期診斷任務中,除了疾病與健康兩類樣本外,還存在另一類樣本,即處於疾病發展過程中,然而還未完全發展成疾病的樣本。對於這類樣本,醫生很難在當下判斷其是否患病。我們稱這一類樣本為不確定樣本,它在早期的醫療影像中大量存在。如果草率地將這部分樣本歸為是否患病,則有可能帶來重大醫療損失。將這類不確定樣本檢測出來,能夠帶來如下好處:
能夠及時對這些樣本進行隨訪檢查,從而避免醫療損失;
能夠降低患病檢出的假陽性;
使得模型在剩餘(確定)樣本中得到更加準確的分類。
一個典型的例子是阿爾茨海默疾病,有一種介於嚴重認知障礙(AD)和健康(NC)的狀態,稱為輕度認知障礙(MCI)。患有 MCI 的人群中只有一部分人會發展成 AD(如圖1),而在發展過程中,醫生很難對早期 MCI 樣本做出是否一定會轉成 AD 的判斷。對這部分人群,需要不斷跟進的檢查,而不能簡單地給出是否患病這樣的二分類標籤,因為這樣會造成極高的誤診率,而誤診會造成嚴重的醫療事故,比如錯過最佳治療時間,誤服藥造成副作用等。
樣本的“不平衡與誤診損失”問題
由於疾病早期有大量這種不確定性資料,因此資料往往面臨樣本不平衡問題。此外,我們認為,將健康誤診為患病和將患病誤診為健康導致的後果是不同的:很多情況下後者會造成更高的損失。因此,我們希望模型在診斷時將後者的誤診率降到最低。本文的目的是通過模型將上述問題解決,從而精確地將這些不確定資料檢驗出來,以建議患者通過隨訪檢驗來跟進疾病發展情況。
不確定性資料模型
本文將不確定樣本問題的檢出建模為三分類問題:患病樣本、不確定樣本、健康樣本。針對一般的多分類問題,常用方法會用交叉熵作為損失函式來進行分類。然而,這類方法沒有利用樣本間按照疾病程度呈遞增有序關係的資訊,即按照疾病程度排列順序為,患病樣本,不確定樣本和健康樣本。為了彌補這一缺陷,我們基於 Margin 的思想提出新的損失函式,從而較好地利用這樣的先驗知識。同時,我們在模型中加入對樣本不平衡和誤診問題的考慮和解決方法,模型具體流程圖見圖2。
首先由於每一類的疾病程度有遞增關係,因此我們這裡採用Margin的思想對其進行建模:
其中 fw(·) 代表引數為 w 的學習模型,比如深度神經網路等,w 為可訓練的引數。而在不確定性資料中,我們假定資料分為三類,其中1代表患病,0代表不確定,-1代表健康, (λ1, λ-1) 為閾值引數。這樣我們可以根據 εi 的分佈 G 來得到如下損失函式,作為負對數似然函式:
為了解決樣本不平衡問題,我們這裡採用 cost-sensitive 的方法來調整 Margin,從而彌補由於樣本不平衡帶來的偏差。此外,上面提到,將患病誤診為健康會帶來更大的風險,因此我們需要模型能夠“激進”地將患病的案例儘可能地檢測出來,從而不會錯過治療時機;而對於健康樣本,我們可以允許模型相對保守,因為這樣的誤診一方面通常情況下不會帶來很嚴重的損失,另一方面也更加謹慎,建議健康患者進行隨訪檢驗,這樣設計也符合醫生的臨床診斷策略。因此,我們希望提升患病類別的 recall 以及健康類別的 precision。為了達到這一效果,我們引入引數 (γ1, γ-1),從而進一步調整 Margin。新的概率分佈函式為:
一方面,我們會通過自動學習引數 (ξ1, ξ-1) 來調整閾值引數的邊界,這裡我們希望 (logξ1, logξ-1) 分別 >0 和 <0,這樣我們便可以使得閾值引數 (λ1, λ-1) 的絕對值降低;在預測時,也可以有效地避免模型偏差到不確定這一類(資料中較多的類)。另一方面,我們通過設定超引數 c1>0,使得其約束 γ1>0,從而能夠讓 λ1 的值進一步降低,進而使得更多疑似患病的樣本被檢驗出來。針對這樣的激進保守策略,相應的損失函式為:
其中,((λ1, λ-1) , (ξ1, ξ-1) , (γ1, γ-1) 為學習引數;(c1, c-1) 為設定超參。
實驗結果
我們對肺結節和阿爾茨海默疾病做實驗。對肺結節實驗,我們用 LIDC-IDRI 資料,包括1010個病人和2660個肺結節。對於每個肺結節,有1-7名醫生進行打分,分為1分至5分5個檔次。分數越高,代表醫生認為惡性可能越大。已有模型都會將平均分為3.5分以上的結節視為惡性,2.5分以下的視為良性。而分數介於2.5到3.5的肺結節將不參與模型訓練和分類任務。我們這裡將其標為不確定這一類。
對阿爾茨海默疾病實驗,我們採用 ADNI 資料,每個樣本為兩側海馬的核磁共振影像,分為1.5特斯拉和3.0特斯拉磁場強度。其中1.5特斯拉的資料包含64個 AD,208個 MCI 和90個 NC;而3.0特斯拉的資料包含66個 AD,247個 MCI 和110個 NC。對這兩個資料,我們用 DenseNet 神經網路對引數進行訓練。並採用指標進行評判,它可以作為二分類中 F1-score 的一般形式:
實驗結果如下面的 Table 4 和 Table 5所示,UDM 為不確定性模型,UDM+CS 為解決樣本不平衡問題的不確定性模型,UDM+CS+CA 為在此之上的激進保守策略模型。可以看出,在兩個資料集上,UDM 相比較已有方法都取得了最好的效果,由於解決了樣本不平衡問題,UDM+CS 的結果得到了進一步提升,而 UDM+CS+CA 使得模型在惡性結節的召回率很高,從而進一步大幅度提升了評價效果。
參考文獻:
ICCV
IEEE International Conference on Computer Vision(IEEE ICCV),即國際計算機視覺大會,是計算機視覺領域國際頂級會議(CCF A類),與計算機視覺模式識別會議(CVPR)和歐洲計算機視覺會議(ECCV)並稱計算機視覺方向的三大頂級會議。ICCV在世界範圍內每兩年召開一次,ICCV 2019將於2019年10月27-11月2日在韓國首爾舉行。