弱監督學習在醫學影像中的探索

微軟研究院AI頭條發表於2018-07-16
編者按:近日,由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦的2018全球人工智慧與機器人峰會(CCF-GAIR)在深圳召開。在大會的醫療影像專場中,微軟亞洲研究院副院長張益肇發表了題為“弱監督學習在醫學影像中的探索”的精彩演講,展望了弱監督學習在人工智慧醫療領域中的應用前景。 本文轉自微信公眾號“雷鋒網”。

弱監督學習在醫學影像中的探索

以下是張益肇博士的精彩演講內容:

感謝主辦方提供機會,讓我介紹微軟在醫學影像領域的探索。

我今天的演講分為三部分:首先,介紹機器學習和人工智慧在醫療領域的機會;其次,介紹我們過去使用的一個演算法——弱監督學習,以及它為什麼在醫學影像領域特別有效;最後,介紹微軟在醫學影像領域的實踐案例,包括北京、印度和劍橋的同事做的一些案例。

希望今天能通過很短的時間給大家一個印象,讓大家瞭解微軟對醫療的看法,以及人工智慧在醫療方面的應用。

人工智慧在醫療領域的機遇

首先分享一個好訊息。粗略統計,今天台下聽眾本人是90後或孩子是90後的人佔到了70-80%。我做醫學研究的時候曾看到這樣一篇報導說,按照醫學的發展速度,2000年左右出生的人,超過一半壽命將超過100歲。這將是一個非常了不起的成就,我非常期待。看到這個好訊息,我非常振奮也很好奇,就去查閱了這篇文章背後的學術論文。

弱監督學習在醫學影像中的探索

我看到一篇2009年在英國《柳葉刀》雜誌上發表的論文,它標題寫的是“未來的挑戰”。假如未來超過一半的人壽命超過100歲,對社會醫療系統將是非常大的挑戰。現在人口老齡化已經非常嚴重,通常來說,人的年紀越大醫療成本就越高。假如超過一半人活過100歲,而我們又沒有更好的醫療方法,將給社會帶來很大的成本。我們剛開始做醫療研究時,美國每年大約有14%的GDP耗費在醫療上,現在這一佔比已經上升到了18%,越來越高了。按這個趨勢發展下去,社會將無法承受。我們相信,解決這個問題一定要靠技術。如果沒有新的技術,就無法給大家提供好的醫療條件,讓大家健康快樂地活到100歲。

弱監督學習在醫學影像中的探索

我舉一個醫療領域的例子——病理切片的解讀,這在中國是一個特別大的挑戰。中國每10萬人口中只有不到兩位病理醫生,美國每10萬人中有超過50位病理醫生,日本每10萬人中也有超過10位病理醫生。也就是說,中國的病理醫生非常缺乏。我們再看病理醫生要做哪些工作:假如一個人不幸患了肺腫瘤,病理醫生要把他的切片切成二三十片,然後仔細觀察其中哪一類是病變的,是什麼樣的病變,A、B、C型別病變的百分比各是多少。這個工作很耗時間,另外,訓練這樣的專業人才也很困難。假如我們可以用電腦輔助醫生做這些工作,是不是可以讓他們更加高效?

弱監督學習在醫學影像中的探索

監督學習

所以我們提出了機器學習,這就帶出了我的下一個話題——監督學習。為什麼要提弱監督學習面對一個病理切片,我們通常有三個目標——分類、切割或聚類。病理圖片通常很大,一張病理圖片可以達到5萬X5萬畫素,甚至更大。訓練模型有三種方法:一是沒有標籤的訓練,這對病理圖片來說很難;二是弱標籤訓練,即利用相對簡單的標籤學習;三是帶詳細標籤的訓練,比如剛才提到的肺腫瘤的例子,你需要標註每一個腫瘤組織的情況。

下面給大家展示兩張圖片,看看人類是如何學習的。

弱監督學習在醫學影像中的探索

我給幾位醫生看過這兩張圖片,他們很快就發現了其中的差別:上面這張圖片中有兩種魚,除了橘色的小丑魚,還有一種黑白相間的魚;下面這樣圖片則只有小丑魚。使用弱監督學習的時候,只要告訴系統這兩張圖片有差別,不需要說明差別在哪,讓他自己學習就好了。這樣一來,標註的工作就少了很多。

回到病理切片的例子,下面這張圖片中既有癌細胞又有正常細胞:上面的是癌細胞,下面的是正常細胞。就像前面講的,我們只需要提供這兩類圖片,無需勾畫所有癌細胞和正常細胞的邊界,系統就能學習。這樣的好處在於:中國的病理醫生很缺乏,讓他們標這些影像的邊界是非常大的工作量而且也很難。現在只需要標出有沒有癌細胞,就相對容易多了。監督學習的優勢就在於在減少標註工作量的情況下,更充分、有效地利用資料

這種弱監督學習的方法我們從2012年就開始使用了,當時還沒有深度學習。下面介紹一項新的研究成果——把弱監督學習深度學習結合在一起。大家如果感興趣,可以查閱我們去年11月發表的論文。

這個方法的基本概念是訓練兩個分類器,上面是正常細胞,下面是有癌細胞。我們希望自動訓練分類器,讓它在畫素級別告訴我們一個細胞到底是癌細胞還是正常細胞。我們統計出圖片中的細胞有癌還是無癌後,再把它放到下圖中的訓練方程式裡。

弱監督學習在醫學影像中的探索

下面是一張比較完整的架構圖,我們不僅分了好幾層,還用到了Area Constraints。

弱監督學習在醫學影像中的探索

如果光用剛才講的分類的方法,不管一張圖片中有10%的面積是癌細胞,還是60%的面積是癌細胞,它訓練的評價模式是一樣的。所以它傾向於把越來越多的細胞當成癌細胞。我們想,能不能繼續減少標註量,同時還能得到更好的效果?於是我們加入了Area Constraints。醫生只需要估計裡面到底有10%、20%還是30%的面積是癌細胞就可以了,而不用標出癌細胞在哪,這又減輕了工作量。我們讓兩位醫生標註,如果標註結果不統一,再請第三位醫生來看哪個標註結果是正確的。

弱監督學習在醫學影像中的探索

下圖中的資料庫是我們微軟亞洲研究院和浙大合作的,用一些大腸癌的圖片訓練,訓練資料約有600張,測試資料有兩百張左右。

弱監督學習在醫學影像中的探索

我們用這個方法實驗,來看一下結果。下圖中紅色標註的是弱監督學習的結果,它的指標與人工判別的情況差不多,跟大量標註訓練的結果也差不多。我們希望通過這種方法,用更多資料來訓練——原來只有一兩百張,現在可以用幾千張——同時大幅降低資料標註的成本。

弱監督學習在醫學影像中的探索

下圖也展示了我們的成果:第二列是醫生標註的結果,最右邊一列是我們系統標出來的結果。可以發現,只要有癌細胞的地方,系統基本都找出來了。這是我們2012年還沒有用深度學習時達到的效果,這五年裡又取得了很多進步。

弱監督學習在醫學影像中的探索

下圖中我們改變了訓練的資料量,從20%-100%,資料越多,效果就越好。

弱監督學習在醫學影像中的探索

下圖是我們加入Area Constraints前後的對比。加入Area Constraints之前,系統把大部分細胞當成了癌細胞,加入之後它把所有正常細胞和癌細胞進行了區分。

弱監督學習在醫學影像中的探索

簡單總結一下:我們希望通過端到端的深度學習方法培育這個系統,幫助在標籤有限的情況下,進行醫學影像的處理、分類和切割。這種方法除了前面提到的大腸癌,在很多其他領域也可以用到,比如肺癌、宮頸癌等。因為它們面對的是同樣的問題,有很多資料需要標註。如果能減少標註時間,就能利用更多的資料。

弱監督學習在醫學影像中的探索

合作案例

除此以外,我們微軟亞洲研究院在別的領域也做了一些研究,比如我們和比爾蓋茲基金會合作的瘧疾方面的應用。瘧疾現在仍是全球的一個大問題,每年有七八十萬人——相當於每天有近2000人死於瘧疾。大家或許感覺不到,因為瘧疾主要發生在欠發達地區。

比爾蓋茲基金會和一家廠商合作,開發了一款很小的裝置,它可以自動掃描玻璃膜片,在窮鄉僻壤幫助診斷瘧疾。醫務人員只需要抽血做膜片就可以了,不必從膜片中找紅血球和瘧疾細菌侵入的樣本。這個系統可以自動掃描出有多少紅血球被瘧疾細菌侵入了,統計瘧疾細菌侵入的密度,密度越高表示病情越嚴重。長期治療中,我們可以用這種方法觀察密度的變化。如果膜片有很多層,系統還可以自動對焦,看哪個是最準的。

弱監督學習在醫學影像中的探索

下面列舉了一些案例。圖中紅色部分是被瘧疾侵入的細胞,用肉眼很難看出來。每天要看這麼多膜片,統計被入侵紅血球的數量,是一項非常繁瑣的工作。這項工作需要專家來做,但在非洲和拉丁美洲的偏遠農村,根本不可能找到這方面的專家。所以我們希望通過這種方法,讓電腦自動完成這些工作。

弱監督學習在醫學影像中的探索

再看一個腦腫瘤病理切片分析的例子,腦腫瘤病理切片分析也是一項龐大的工作。一個腫瘤被切除後,需要知道切片中的腫瘤屬於哪一類,這決定了你的預後處理方式,是觀察、化療,還是放射性治療。病理醫生需要看切片然後給出建議,這中間存在著兩大挑戰——分類和切割。

一般病理圖片非常大,2014年已經有了深度學習系統,我們當時決定,不管分類還是切割都用深度學習的方法來做。深度學習不需要涉及特徵,而是通過機器學習的方法學習特徵。我們用到的是遷移學習的方法,也就是說,特徵不是在病理切片等醫學影像上訓練,而是在ImageNet上訓練出來的。雖然如此,這個神經網路還是可以抽取病理影像的資訊,把它送入分類器並分析出來。

弱監督學習在醫學影像中的探索

下圖是我們2014年用這種方法獲得的結果,不管在分類還是切割上都排名第一。當時深度學習剛剛出來,我們在這個課題第一次使用了深度學習,而後面幾名都沒用,可見當時深度學習的效果。

弱監督學習在醫學影像中的探索

作為一家平臺公司,微軟需要跟不同領域的專家和企業合作,才能更大程度地發揮人工智慧等前沿技術的價值。

下圖介紹了我們和英國劍橋醫院的醫生合作的一個關於影像分割的專案。假如一個腦腫瘤患者要做放射性治療,第一步要把腫瘤分割出來,甚至還要標出一些正常部位,比如管視覺或聽覺的部位。通過這種方法讓放射性治療更精準,避免誤傷其他細胞。

我曾經問做放射性治療的醫生,做這件事情要花多長時間。他回答說,這件工作挺複雜的,可能需要30分鐘左右。我又問,如果病人是你的母親,你會花多長時間。他回答說,這種情況可能要花三個小時。大家都是人,為什麼會有這種差別?這表明,很多情況下醫生無法花那麼長時間細緻地做這件事。所以,我們希望利用人工智慧和機器學習,幫助醫生更高效地完成工作

弱監督學習在醫學影像中的探索

再看一個微軟與印度合作的案例。我們和印度一家做眼底裝置的企業合作,檢測視網膜上的糖網病變,做早期篩查,評估病變的嚴重程度。目前全世界有超過20個國家在使用這家企業的裝置,治癒了超過20萬名病患。美國FDA不久前剛剛批准了這類應用。我相信國內也有很多合作伙伴在做這類事情。我的看法是,這種技術多多益善。

弱監督學習在醫學影像中的探索

我們還和印度另一家機構合作,分析病人是不是有近視,會不會轉化成嚴重近視,以及是否會出現視網膜脫落等。這家機構有很多小孩子在不同年紀拍攝的眼底照片。我們基於這些照片進行機器學習,用演算法檢測他的眼部疾病是否會繼續惡化。

弱監督學習在醫學影像中的探索

除了醫學影像之外,還有沒有別的利用人工智慧改善醫療的機會?我這裡也有一些案例。

美國每年有38000人死於交通事故,很多交通意外是由人為因素導致的,所以大家對自動駕駛充滿熱情。如果我們能用自動駕駛減少這些人為因素,即使只減少一半,在美國每年也能挽救近2萬人的生命,是對社會的巨大貢獻。

美國約翰霍普金斯的一個團隊做過調查,美國醫院裡每年有近26萬人因為醫療意外(包括交叉感染、意外跌倒等)死亡,是除心腦血管疾病和癌症之外的第三大死因,致死人數是車禍的近6倍。如果我們能用技術減少這種錯誤,對社會也是巨大的貢獻。

弱監督學習在醫學影像中的探索

這方面我們也有一些案例。比如,微軟跟巴西一家醫院合作,通過視訊分析病人在病床上的行為。如果病人在床上,但是安全柵欄沒拉起來,系統就會發出警報,提醒護士檢視。這裡又要提到弱監督學習,因為視訊的資料量非常大,如果每一幀都要標註,工作量十分龐大。採用弱監督學習的方法,只要看到病人有沒有下床就可以了,不用每一幀都標註。

未來,在醫院的複雜環境中,可以通過計算機視覺判斷更多情況,比如一個剛剛做完手術的病人是否走得太遠了,需不需要人去接他等。通過這種方法可以減少醫療意外。

弱監督學習在醫學影像中的探索

最後快速總結一下:有人開玩笑說,所謂的人工智慧是靠大量人工實現少量的智慧,比如做圖片識別,需要先找大量人對影像進行標註。醫療影像的標註需要專業知識,甚至需要幾位專家商量後才能決定怎麼標,很難找到這麼多標註人員,標註成本也很高。

所以我們希望通過弱監督學習的方法提高可被使用的資料量,充分發揮機器學習的能力,構建更復雜和精確的模型

我案例中提到的很多場景,從病理切片到視訊分解,都可以採用類似的模式來減少資料標註工作。關於這些案例,我們網站上有詳細介紹,歡迎大家訪問瀏覽。

未來希望能與各地的不同企業和單位合作,在醫療領域充分發揮人工智慧的價值,讓大家可以健康活到100歲。謝謝!

以下是問答環節的精彩內容:

提問:您剛才提到用AI攝像頭監控病房,目前應該只是做行為觀測,有沒有更深入一點的,比如分析病人的心跳、呼吸或睜眼等情況?

張益肇:這個想法很好,需要我們跟合作伙伴一起實現。你剛才提到的眨眼識別,我們研究院做了一些表情分析的研究。針對心理疾病患者,可以通過表情的變化進行分析和監測。

提問:微軟在醫療領域有沒有用人工智慧處理CT或者三維資料?

張益肇:有。我剛才提到英國同事做的腫瘤和健康組織的分割就是三維的。另外,我們在北京也在做肺結節識別的研究,也是三維的。今天時間有限所以沒有介紹。

提問:微軟研究院主要做基礎科研,這些技術能不能對外合作?

張益肇:可以。我們希望把人工智慧普及化,如果有好的夥伴,我們很願意合作。我們對合作夥伴的要求是,要有資料資源和合理的期望值。因為產品在技術上是可行的,但真正在醫院落地是一個漫長的過程。我們希望合作伙伴有真誠的意願和足夠的耐心。

提問:您剛剛介紹的案例大部分是在高階私人醫院或大型公立三甲醫院。對於民營綜合性醫院或社群醫院來說,醫療人工智慧對它們有價值嗎?

張益肇:有。我剛才提到印度的案例,用裝置檢測糖尿病的發展情況。在基層和醫生資源不夠的地方,這種人工智慧發揮的作用更大。我剛才提到的瘧疾的例子也是如此。

相關文章