谷歌跨界醫學新動作:基因突變定位模型又更!新!了!

量子位發表於2018-04-20
Root 編譯自 Google Research Blog
量子位 出品 | 公眾號 QbitAI

去年12月,谷歌大腦釋出了快速找出基因突變位點的深度學習模型DeepVariant,用影像識別的思路來精準定位出基因序列中突變的位點。

640?wx_fmt=png&wxfrom=5&wx_lazy=1

時隔5個月,谷歌大腦於今日再次更新Deepvariant,釋出了0.6.0版本。

比起之前的第一版,新版在準確率上會有重大的提升。針對兩個典型的測序場景——全外顯子組測序,PCR,谷歌大腦團隊作出了特定的優化。下面介紹一下DeepVariant相應的訓練過程。

基因序列資料

一般來港,序列資料的種類多到眼花。

種類繁雜的原因有好幾個:

1)人體DNA的提取有不同的來源。唾液、血液、脫落的皮屑都OK;
2)DNA樣本的處理方法有好幾種;
3)DNA擴增的倍數可變;
4)DNA擴增的位置可選。

理論上,找到基因突變位點的工具可以根據特定的資料型別,進行微調。但即使時間不限,配上經驗豐富的專家來做這個微調的工作,也不可能做到每種資料型別都出一個與之匹配的工具。這不科學。

但用Deepvariant模型就不一樣了。

谷歌大腦團隊可以根據新的資料型別要求,給模型喂代表性的資料,這樣訓練下來,提高準確率的同時,也能保證最終表現不受負面影響。

找尋基因突變的挖井人

深度學習模型依賴高質量的訓練評估資料。

在測序領域裡,歸屬於美國技術標準協會的瓶中基因組聯盟(Genome in a Bottle,GIAB)擁有人類基因組資料,主要用於技術發展,基因評測和優化。

這個資料得來不易。

瓶中基因組聯盟大量牽頭做了大量的工作,最後才有了高保真度的基因組資訊。這些工作包括但不限於:用盡目前已有的測序方法;把所有找尋基因突變的工具都折騰了一遍;複製了無數遍同一個人的DNA。

DeepVariant的大部分訓練資料來自於GIAB第一個釋出的的標準比對基因組,HG001。這個基因組的樣本貢獻者是一名北歐女士,也屬於國際人類基因組單體型專案。

該專案是首個大規模嘗試確認人類基因差異中的共同模式。

因為HG001的DNA是商用的,也富有代表性,所以很多新測序方法出來之前會拿HG001來“練手”。

用HG001裡的多種複製版本和不同的資料型別,訓練DeepVariant模型的話,可以提高資料型別分類的準確性,還能泛化出之前沒見過的資料型別。

0.5.0版本:進化版的外顯子模型

在釋出0.5.0版本的時候,我們採用了相容標準的訓練思路,用的是HG002樣本,第20條染色體的所有資料。

HG002,是GIAB公佈的第二個基準基因組,來自一個猶太人男子。

取性別不同、種族不同的HG001和HG002的資料,可以幫助DeepVariant在面對種群的多樣性時有更好的表現。

在0.5.0版本里,谷歌關注點落在了外顯子資料上。

外顯子只佔到整個基因組資訊的1%,專門指導機體產生蛋白質。很多臨床上重大的基因病就是在某處外顯子出了問題。

為了增加外顯子序列(WES,whole exome sequencing)的精確性,谷歌特地新增了全外顯子組這個資料種類,其訓練資料由DNAnexus提供。

結果發現,全外顯子組模型的誤插誤刪率降低了43%,單核苷酸複製錯誤率降低了22%。
640?wx_fmt=pngHG002的外顯子序列錯誤率如上圖所示。左側顯示的錯誤是誤插誤刪,右邊是單個核苷酸複製錯了。黃色部分表示假陽性的錯誤,藍色部分指的是假陰性錯誤。

從圖可以看出,錯誤率降低最佳的表現出現在0.5版那次更新。

DNA擴增資料的優化

最新的0.6.0版本,解決的主要是序列拼接前,擴增資料精度提升的問題。

PCR,聚合酶鏈式反應,是相當便宜又簡單的擴增方法。但擴增後容易出錯,所以現在多用非PCR方法來準備DNA樣本了。

DeepVariant之前版本的訓練資料因為完全沒有用PCR,所以對於用到了PCR的資料,前幾版的DeepVariant的外部評測表現就不太好。

但這回,谷歌到腦新增了PCR+的訓練資料,現在這種資料型別的處理準確率就顯著提升,誤插誤刪概率降低了60%。
640?wx_fmt=png

 左側是DNAnexus評測結果,右邊是bcbio的。

DNAnexus、bcbio對最新版DeepVariant的獨立評測結果看這裡:

http://t.cn/RmkpEQ9

http://dwz.cn/7P8CAT

谷歌藉助這些分析報告,瞭解到DeepVariant和其他找基因變異位點工具存在的不同,並進一步降低了錯誤率。

最新版的程式碼同樣已經開源,谷歌大腦希望感興趣的人能參與進來一起推動測序行業的發展。

如果大家認為某種型別的資料值得谷歌團隊留意,可直接聯絡:https://github.com/google/deepvariant/issues

最後,附最新版DeepVariant更新說明:
https://github.com/google/deepvariant/releases/tag/v0.6.0

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。

640?wx_fmt=jpeg

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態



相關文章