視網膜眼底影象預測心臟病風險:Nature綜述深度學習在生物醫療中的新應用

黃小天發表於2018-01-05
生物醫療是機器學習技術應用對接的重要領域之一。近日,Nature 報導了谷歌運用深度學習技術(主要是卷積神經網路)在該領域取得的新突破。谷歌通過分析眼球的視網膜影象,可以預測一個人的血壓、年齡和吸菸狀況,而且初步研究表明,這項技術在防範心臟病發作上很有成效。深度學習技術正改變著生物醫療學家處理分析影象的方式,甚至有助於發現從未觸及的現象,有望開闢一條新的研究道路。

眼睛通常被認為是心靈的視窗——但是谷歌研究者卻將其看作人體健康的指示器,他們正藉助深度學習技術分析眼球的視網膜影象來預測一個人的血壓、年齡和吸菸狀況。谷歌的計算機收集視網膜血管資訊,並且一項初步研究表明機器可以使用這些資訊預測一個人是否有心臟病發作的風險。

這項研究依賴於一種稱為卷積神經網路的深度學習演算法,它正在改變生物學家分析影象的方式。科學家正使用該方法尋找基因組突變,並預測單細胞佈局中的變異。谷歌的這一方法在上年 8 月的預印版中已有所描述(R. Poplin et al. https://arxiv.org/abs/1708.09843;2017),它成為了深度學習應用浪潮的一部分,使得影象處理更容易,更有用——甚至可以識別被忽略的生物現象。

谷歌研究院的工程學主管 Philip Nelson 說:「從前把機器學習技術應用到生物學領域並不現實,現在可以了;更令人興奮的是,機器還可以看到人之前無法發現的東西。」

卷積神經網路允許計算機高效而全息地處理影象,而無需分割它。藉助於算力與儲存的巨大提升,該方法最初在 2012 年左右初顯成效;比如,Facebook 利用這類深度學習技術識別影象中的人臉。但是科學家卻努力把神經網路應用到生物學,部分原因是由於領域之間的文化區別。谷歌母公司 Alphabet 旗下的生物科技公司 Calico 的首席計算官 Daphne Koller 說:「一群聰明的生物學家和一群同樣聰明的電腦科學家出現在一個房間,他們會以兩種截然不同的語言和思維方式彼此交流。」

科學家同樣也不得不識別何種研究可被執行,研究使用的神經網路須經過大型資料集的訓練方可做出預測。當谷歌想要使用深度學習發現基因組突變時,科學家不得不把 DNA 字母鏈轉化為計算機可識別的影象,接著他們在 DNA 片段上訓練神經網路,這些片段已與參考基因組對齊,並且其突變已知。最終的結果是 DeepVariant,該工具發行於上年 12 月,可發現 DNA 序列上的小變異。至少在測試中,DeepVariant 的表現與傳統工具一樣好。

在位於西雅圖的艾倫研究所中,細胞生物學家正在使用卷積神經網路將光學顯微鏡捕獲的細胞平坦灰色影象轉換成 3D 影象,其中一些細胞的細胞器被標記為彩色。這種方法免去了細胞染色的需要——這一過程需要很多時間和複雜的實驗室裝置,還可能會損壞細胞。上個月,該研究小組提交的論文中詳述了僅使用少量資料(如細胞輪廓),來預測更多細胞部分的形態和位置的技術細節(G. R. Johnson et al.Preprint,bioRxiv http://doi.org/chwv; 2017)

「現在我們看到的是機器學習可以使用影象來完成生物學任務,」Broad Institute of MIT and Harvard 影象平臺負責人 Anne Carpenter 說道。在 2015 年,她的跨學科團隊開始使用卷積神經網路來處理細胞影象;現在,Carpenter 說道,神經網路正在處理研究中心內大約 15% 的影象資料。她認為這種方法將成為該中心在未來幾年內的主要資料處理方式。

其他人則對使用卷積神經網路探索微妙的生物學現象,進而提出此前無法想象的問題而感到興奮。「科學界最有趣的短語不是『找到了!』而是『這很奇怪——發生了什麼?』」Nelson 說道。

「這樣的偶然發現可以推動疾病研究,」艾倫研究所的執行董事 Rick Horowitz 說道。「如果深度學習可以找出單個細胞中微妙的癌化徵兆,它就可以幫助我們改進腫瘤分類,這又可能帶來癌細胞傳播的新理論。」

生物學界的其他機器學習擁躉已經將目光投向了新的前沿領域,現在,卷積神經網路正在用於影象處理。「影象非常重要,化學和分子資料也同樣重要,」德國環境健康研究中心計算生物學家 Alex Wolf 說道。Wolf 希望神經網路最終能夠分析基因表達。「我認為在未來幾年裡這類技術會出現很大的突破,」他說道,「從而讓生物學家能夠更廣泛地使用神經網路技術。」

論文:Predicting Cardiovascular Risk Factors from Retinal Fundus Photographs using Deep Learning

視網膜眼底影象預測心臟病風險:Nature綜述深度學習在生物醫療中的新應用

論文連結:https://arxiv.org/abs/1708.09843

摘要:傳統上,醫學發現是通過觀察關聯性,隨後設計試驗驗證假設得出的。但是,在真實資料中特徵、紋理、顏色、數值、形態等因素在影象中觀察和量化出關聯非常困難。在本文中,我們使用深度學習,一種可以自行學會特徵的機器學習技術,來探索視網膜眼底影象中的新知識。通過來自 284,335 名患者的資料,我們訓練出了一個模型,同時又經過了來自 999 名患者,12,026 份獨立資料驗證集的驗證,我們的演算法可以預測出此前被認為在視網膜眼底影象裡無法預測的心血管風險指標,如年齡(3.26 歲以內)、性別(0.97AUC)、吸菸狀況(0.71AUC)、HbA1c(1.39% 以內)、收縮壓(11.23mmHg 以內),以及主要不良心臟事件(0.70AUC)。我們進一步證明,該模型可用於生成解剖學上多種型別的分析預測,如視神經盤和血管,這為未來的研究開啟了新路。

原文連結:https://www.nature.com/articles/d41586-018-00004-w

相關文章