AI 人臉識別技術已被廣泛用於手機解鎖、移動支付,甚至「看面相」。近日,來自美國數字醫療公司 FDNA 的研究人員提出了一種深度學習應用 Face2Gene,可以幫助醫生識別罕見基因疾病。他們的研究登上了醫學期刊《Nature Medicine》,並被 Nature 和 Science 爭相報導。
和大多數消費產品一樣,Face2Gene 的 APP 可以搭載在智慧手機裡,其識別遺傳病的 top-10 準確率高達 91%。研究者稱,這種深度神經網路識別罕見病的準確率超過了人類醫生。如果繼續改進一些問題,它就可以幫助全球兒童獲得更好的醫療條件了。
本月 7 日發表在《Nature Medicine》上的一篇論文提出了一種深度學習演算法 DeepGestalt,可以幫助醫生和研究人員通過分析人們的面部照片來發現罕見遺傳病。在這篇論文中,研究者詳細介紹了這項輔助診斷方法背後的技術——一個名為 Face2Gene 的智慧手機 APP。該應用依靠深度學習演算法和類腦神經網路來區分人類照片中與先天性和神經發育障礙有關的獨特面部特徵。利用從照片中推斷出的模式,該模型可以定位到可能的診斷結果,並提供可能的選項列表。
研究人員正在提高演算法能力,以幫助發現諸如德朗熱綜合徵 (CdLS) 等遺傳疾病的身體特徵。
醫生已經使用這種技術作為輔助手段,儘管它給出的診斷並不是決定性的。但是,研究者表示,這一工具引發了人們對倫理、法律方面的擔憂,包括訓練資料集中的種族偏見和資料集的商業成分,二者都可能會限制這一診斷工具的使用範圍。
FDNA 是馬薩諸塞州波士頓的一家數字醫療公司。在該公司技術長 Yaron Gurovich 的帶領下,研究者們首先訓練人工智慧系統來區分德朗熱綜合徵和天使人綜合徵,這兩種疾病患者都有有別於其他疾病的明顯面部特徵。他們還教該模型區分對第三種疾病——努南綜合徵的不同基因形式進行分類。
接下來,研究者們給演算法輸入了涵蓋 216 種不同綜合徵的 17000 多張確診病例的影像。在用新面孔進行測試時,該 APP 的最佳診斷猜測準確率達到了 65%。如果考慮多個預測結果,則 Face2Gene 的 top-10 準確率可以達到約 90%。
縮小可能病症的範圍
最終,FDNA 想開發該技術來幫助其他公司過濾、優先處理和解釋 DNA 分析中發現的未知基因變異。但是要想訓練模型,FDNA 需要資料。
因此目前醫療專家可免費使用 Face2Gene app,其中許多人將該系統作為診斷罕見遺傳性疾病的第二選擇,Nemours/Alfred I. duPont 兒童醫院醫學遺傳專家、該研究的共同作者 Karen Gripp 說道。它還可以為對病人症狀摸不著頭腦的醫生提供思路——「類似谷歌搜尋」。
Gripp 也是 FDNA 的首席醫療官,她使用該演算法幫助診斷一個小女孩的 Wiedemann–Steiner 綜合徵。這個小女孩才四歲,由於年齡較小,除了掉落大部分乳牙並長出多個恆牙,很多典型的軀體症狀尚未顯現。
Gripp 讀了很多關於患有 Wiedemann–Steiner 綜合徵的兒童牙齒過早生長的案例報告,這是由一種叫作 KMT2A 的基因變異引起的罕見疾病。為了支撐該診斷的置信度,Gripp 將這個患者的照片上傳到 Face2Gene。軟體上出現了「Wiedemann–Steiner 綜合徵」。
接著,Gripp 用靶向 DNA 測試進一步確定了這一診斷結果。她說,該 AI 方法可以幫助她縮小可能病症的範圍,節約了更昂貴的多基因檢測(multi-gene panel testing)費用。
DeepGestalt 高階流程和網路架構。該網路由十個卷積層組成,除了最後一個之外的所有層都是批量歸一化和 ReLU。在每對卷積層之後是池化層(在前四對之後的最大池,和在第五對之後的平均池)。然後是具有 dropout(0.5)和 softmax 層的全連線層。
「打敗人類」
Gurovich 表示,隨著更多醫療專家將病人的照片上傳到該 APP,該專案的準確率也得到略微提高。現在該專案的資料庫中大約有 15 萬張照片。
在去年八月舉辦的一個先天性缺陷研討會上,人們對 Face2Gene 和臨床醫生的準確率進行了一次非正式對比,結果表明 Face2Gene 優於人類。南卡羅來納州格林伍德遺傳中心(Greenwood Genetic Center)遺傳學家 Charles Schwartz 向參與者發放十個兒童的面部照片(症狀「容易識別」),然後讓參與者進行診斷。
只在兩張照片上有半數以上的臨床遺傳學家診斷出正確結果。而 Face2Gene 正確識別了其中 7 張照片裡的症狀。
「我們輸得很慘,Face2Gene 打敗了我們。」美國國家人類基因組研究所(US National Human Genome Research Institute)臨床遺傳學家 Paul Kruszka 說道。「我認為兒科醫生和遺傳學家將會有一個類似的 app,並像使用聽診器一樣使用它。」
筒倉效應和偏見
但只有訓練資料集夠好,演算法才足夠好用,因此這種技術存在風險。尤其是涉及那種全球患者人數極少的罕見疾病時,公司和研究人員各自為營,將其資料集商業化。「這會威脅到這項技術的主要潛在優勢。」帶頭促進這一領域資料共享的牛津大學計算生物學家 Christoffer Nellåker 說道。
訓練資料集(其中大部分為白人)中的種族偏見仍是一大問題。2017 年的一份兒童智力障礙研究表明,Face2Gene 對唐氏綜合徵的識別率在比利時白人小孩中為 80%,而在剛果黑人小孩中僅為 37%。然而,隨著訓練資料集變得更加多樣化,演算法對非洲面孔的識別準確率亦隨之提升,表明多樣化人群的更公平表示是可以實現的。
「我們知道這個問題需要解決,但隨著我們技術的發展,偏見會越來越少。」Gurovich 表示。
論文:Identifying facial phenotypes of genetic disorders using deep learning
https://www.nature.com/articles/s41591-018-0279-0
摘要:綜合徵遺傳病影響了 8% 的人口。很多綜合徵具有可識別的面部特徵,這些特徵對於臨床遺傳學家來說具有很高的資訊價值。最近的研究表明,面部分析技術識別綜合徵的能力已經達到了專業醫生級別。然而,這些技術只能識別少數疾病表型,因而在臨床診斷中發揮的作用有限,臨床診斷中需要識別的綜合徵有上百種。本文提出一種面部影像分析框架 DeepGestalt,該框架利用計算機視覺和深度學習演算法量化了數百種綜合徵的相似性。
在最初的三個實驗中,DeepGestalt 的表現超越了臨床醫師。其中兩個實驗用於區分患有目標綜合徵和其它綜合徵的患者,剩下的一個用於區分努南綜合徵的不同基因亞型。最後一個實驗是反應真實臨床問題,而這次 DeepGestalt 在 502 張不同影像上識別正確綜合徵的 top-10 準確率達到了 91%。該模型是在一個包含 17000 張影像的資料集上訓練的,這些影像共呈現了 200 多個綜合徵,通過社群驅動的表型平臺進行策劃。DeepGestalt 為臨床遺傳學、基因測試、醫學研究和精準醫療中的表型評估增加了相當大的潛在價值。
參考內容:
https://www.nature.com/articles/d41586-019-00027-x#ref-CR1
https://www.nature.com/articles/s41591-018-0279-0
https://www.sciencemag.org/news/2019/01/artificial-intelligence-could-diagnose-rare-disorders-using-just-photo-face
https://futurism.com/genetic-disorders-face-shape-app/