基於弱監督學習的病理影像分析框架
一、研究背景
惡性腫瘤是全球第二大死因,每年導致近千萬人死亡。病理報告是腫瘤臨床診斷和治療的“金標準”,是癌症確診和治療的基本依據。為了緩解世界範圍內病理醫生短缺的現狀,人工智慧病理診斷成為當今學術研究和工程落地的熱點。數字病理切片的體積通常都在500MB至2GB,畫素數超過百億,有監督的病理診斷模型需要進行繁瑣的畫素級切片標註,對這一領域的快速發展帶來了挑戰。
相比之下,弱監督學習僅需要影像級別的粗粒度標籤,能夠大幅降低標註的工作量。由於單個數字病理切片尺寸過大,僅通過切片級診斷很難獲得高準確率的結果(建立弱監督學習模型通常需要超過1萬張數字切片 [1]),研究人員通常將數字病理切片劃分為若干的影像(image),對每一個影像打上標籤(例如在二分類的場景下,如果影像包含有癌區,則標註為1,反之標註為0),進而獲得弱監督學習模型。
但是,由於對監督資訊利用率不足,在之前發表的研究工作中,弱監督學習演算法的準確率遠低於有監督學習 [2-5]。在本研究中,我們提出弱監督學習框架CAMEL,通過多例項學習(multiple instance learning, MIL),CAMEL能夠通過建模自動生成細粒度(畫素級)的標註資訊,從而可以使用有監督的深度學習演算法完成影像分割模型的建立。通過在CAMELYON16 [6]和解放軍總醫院腸腺瘤資料集上的驗證,CAMEL能夠取得接近完全有監督模型的準確率。
二、CAMEL演算法設計
CAMEL的執行過程包括兩個步驟:監督資訊增強(label enrichment)和有監督模型訓練(supervised learning)(見圖1)。CAMEL將影像(image)等距切分為更小的影像塊(instance),在監督資訊增強過程中自動為每一個塊進行標註,進而將弱監督轉化為有監督的問題。
CAMEL的有效性取決於監督資訊增強後影像塊標註的質量,為了提高標註的準確率,我們提出⼀種組合多例項學習(cMIL)的方法。在cMIL的訓練過程中,我們需要找到影像中的代表影像塊,其預測結果可以視為整張影像的分類標籤(類比注意力機制)。在實際操作過程中,每一張影像被分成N×N個大小相等的塊,同一張影像所對應影像塊的集合被稱為一個“影像包(bag)”。
如果一張影像中包含有癌變區域(CA),我們可以推斷至少一個影像塊包含有癌變區域。反之,若一張影像中沒有癌變區域(NC),則所有的影像塊均沒有癌變。cMIL使用了兩個不同的影像塊選擇判據(即Max-Max和Max-Min,見圖2),如圖3所示,在訓練過程中,我們首先使用Max-Max(或Max-Min)從每個影像包中選擇一個影像塊,然後根據影像塊的預測結果與影像的分類標籤一起來計算成本函式。兩種判據分別訓練得到兩個深度學習模型,我們將同一份訓練資料分別送到兩個模型中,並通過對應的判據選擇出最有代表性的影像塊(這裡,我們排除了兩個模型預測結果不同的影像塊)。在本研究中,我們採用了ResNet-50作為影像塊分類器,並使用交叉熵作為成本函式。
最後,我們使用選擇出的有標註影像塊訓練新的分類器,使用訓練後的分類器對訓練集的所有影像塊進行預測。至此,我們將影像級的標註增強到了影像塊級別,獲得了N×N倍的有監督資訊。
我們將影像塊級別的標註直接賦給每一個畫素點,便可以使用現有的影像分割模型,如DeepLab和U-Net,以有監督的方式訓練畫素級預測模型。
三、提升效果
為了更加充分的利用監督資訊,我們提出了級聯資料增強(cascade data enhancement)和影像級別約束(image-level constraint)兩種方法,能夠進一步提高模型的準確率。
獲得比例因子為N的影像塊資料,我們既可以使用cMIL(N),又可以使用cMIL(N1)和cMIL(N2)(其中N=N1×N2),級聯資料增強方法通過兩種方式來生成影像塊標註資料。
在之前介紹的演算法中,在使用增強資訊後的影像塊資料進行分類器訓練的過程中,我們並沒有使用影像級別的標籤資訊。為了將影像級監督資訊引入到模型的訓練過程中,我們可以在訓練影像塊級別分類模型時,將分類器的網路結構設定為與cMIL相同,並複用cMIL的訓練框架,進而將影像級的分類資料作為另⼀個有監督資訊源參與到訓練過程中。
四、實驗結果
CAMELYON16包含400張HE染色的乳腺淋巴結數字病理切片,我們將切片中200x視野1280×1280的影像作為影像級資料。CAMELYON16的訓練集包含240張(110張包含CA)切片,對應5011張CA和96496張NC影像,我們對CA影像過取樣以匹配NC影像的數量。此外,我們還構建了320×320和640×640兩個完全有監督的訓練資料集,以便與弱監督模型進行比較。測試集包括160張(49張包含CA)切片,可獲得3392張CA影像,我們隨機抽樣了對應數目的NC影像。
如表1和圖4所示,Max-Max傾向於給出低敏感度高特異性的結果,Max-Min則恰好相反。結合二者所獲得的資料,可以得到更加均衡的模型。可以看到,CAMEL獲得的320×320和160×160影像塊標註資料準確率僅比完全有監督模型低1.6%和1.1%。
我們測試了DeepLab v2(ResNet-34)和U-Net在影像分割上的表現,表2給出了不同模型的敏感度、特異性、準確率和交併比(intersection over union, IoU)。可以看到,CAMEL的效果遠好於原始影像級標註,並接近完全有監督學習。
使⽤160×160影像塊所獲得的模型準確率高於320×320(見圖5),說明了監督資訊增強方法的有效性。我們在圖6給出了不同模型在切片級資料上的預測結果。
五、總結與展望
在本研究中,我們提出了僅使用影像級標籤進行組織病理學影像分割的弱監督學習框架CAMEL,並獲得了與有監督學習相當的模型準確率。CAMEL是一個通用的演算法框架,同樣適用於其他領域的相關應用。
CAMEL能夠加速數字病理切片的標註過程,推進病理人工智慧研究和落地的程式。人工智慧病理輔助診斷系統可以幫助醫生完成大部分簡單、重複的工作,極大提高醫生工作效率,減輕醫生的工作負擔。對於醫療資源較落後的地區,人工智慧還可以提高當地的病理診斷水平。
【參考文獻】
【作者介紹】
徐葳:清華大學交叉資訊研究院副教授、助理院長、博士生導師,圖靈人工智慧研究院副院長,加州大學伯克利分校博士。