谷歌跨界醫學新動作:基因突變定位模型又更!新!了!
Root 編譯自 Google Research Blog
量子位 出品 | 公眾號 QbitAI
去年12月,谷歌大腦釋出了快速找出基因突變位點的深度學習模型DeepVariant,用影像識別的思路來精準定位出基因序列中突變的位點。
時隔5個月,谷歌大腦於今日再次更新Deepvariant,釋出了0.6.0版本。
比起之前的第一版,新版在準確率上會有重大的提升。針對兩個典型的測序場景——全外顯子組測序,PCR,谷歌大腦團隊作出了特定的優化。下面介紹一下DeepVariant相應的訓練過程。
基因序列資料
一般來港,序列資料的種類多到眼花。
種類繁雜的原因有好幾個:
1)人體DNA的提取有不同的來源。唾液、血液、脫落的頭皮屑都OK;
2)DNA樣本的處理方法有好幾種;
3)DNA擴增的倍數可變;
4)DNA擴增的位置可選。
理論上,找到基因突變位點的工具可以根據特定的資料型別,進行微調。但即使時間不限,配上經驗豐富的專家來做這個微調的工作,也不可能做到每種資料型別都出一個與之匹配的工具。這不科學。
但用Deepvariant模型就不一樣了。
谷歌大腦團隊可以根據新的資料型別要求,給模型喂代表性的資料,這樣訓練下來,提高準確率的同時,也能保證最終表現不受負面影響。
找尋基因突變的挖井人
深度學習模型依賴高質量的訓練評估資料。
在測序領域裡,歸屬於美國技術標準協會的瓶中基因組聯盟(Genome in a Bottle,GIAB)擁有人類基因組資料,主要用於技術發展,基因評測和優化。
這個資料得來不易。
瓶中基因組聯盟大量牽頭做了大量的工作,最後才有了高保真度的基因組資訊。這些工作包括但不限於:用盡目前已有的測序方法;把所有找尋基因突變的工具都折騰了一遍;複製了無數遍同一個人的DNA。
DeepVariant的大部分訓練資料來自於GIAB第一個釋出的的標準比對基因組,HG001。這個基因組的樣本貢獻者是一名北歐女士,也屬於國際人類基因組單體型專案。
該專案是首個大規模嘗試確認人類基因差異中的共同模式。
因為HG001的DNA是商用的,也富有代表性,所以很多新測序方法出來之前會拿HG001來“練手”。
用HG001裡的多種複製版本和不同的資料型別,訓練DeepVariant模型的話,可以提高資料型別分類的準確性,還能泛化出之前沒見過的資料型別。
0.5.0版本:進化版的外顯子模型
在釋出0.5.0版本的時候,我們採用了相容標準的訓練思路,用的是HG002樣本,第20條染色體的所有資料。
HG002,是GIAB公佈的第二個基準基因組,來自一個猶太人男子。
取性別不同、種族不同的HG001和HG002的資料,可以幫助DeepVariant在面對種群的多樣性時有更好的表現。
在0.5.0版本里,谷歌關注點落在了外顯子資料上。
外顯子只佔到整個基因組資訊的1%,專門指導機體產生蛋白質。很多臨床上重大的基因病就是在某處外顯子出了問題。
為了增加外顯子序列(WES,whole exome sequencing)的精確性,谷歌特地新增了全外顯子組這個資料種類,其訓練資料由DNAnexus提供。
結果發現,全外顯子組模型的誤插誤刪率降低了43%,單核苷酸複製錯誤率降低了22%。
HG002的外顯子序列錯誤率如上圖所示。左側顯示的錯誤是誤插誤刪,右邊是單個核苷酸複製錯了。黃色部分表示假陽性的錯誤,藍色部分指的是假陰性錯誤。
從圖可以看出,錯誤率降低最佳的表現出現在0.5版那次更新。
DNA擴增資料的優化
最新的0.6.0版本,解決的主要是序列拼接前,擴增資料精度提升的問題。
PCR,聚合酶鏈式反應,是相當便宜又簡單的擴增方法。但擴增後容易出錯,所以現在多用非PCR方法來準備DNA樣本了。
DeepVariant之前版本的訓練資料因為完全沒有用PCR,所以對於用到了PCR的資料,前幾版的DeepVariant的外部評測表現就不太好。
但這回,谷歌到腦新增了PCR+的訓練資料,現在這種資料型別的處理準確率就顯著提升,誤插誤刪概率降低了60%。
△ 左側是DNAnexus評測結果,右邊是bcbio的。
DNAnexus、bcbio對最新版DeepVariant的獨立評測結果看這裡:
http://t.cn/RmkpEQ9
http://dwz.cn/7P8CAT
谷歌藉助這些分析報告,瞭解到DeepVariant和其他找基因變異位點工具存在的不同,並進一步降低了錯誤率。
最新版的程式碼同樣已經開源,谷歌大腦希望感興趣的人能參與進來一起推動測序行業的發展。
如果大家認為某種型別的資料值得谷歌團隊留意,可直接聯絡:https://github.com/google/deepvariant/issues
最後,附最新版DeepVariant更新說明:
https://github.com/google/deepvariant/releases/tag/v0.6.0
— 完 —
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。
量子位 QbitAI · 頭條號簽約作者
վ'ᴗ' ի 追蹤AI技術和產品新動態
相關文章
- 記錄:又學了一個 Laravel 新寫法Laravel
- 《自然·遺傳學》:發現罕見戒菸基因突變!
- 谷歌的Android Q到底有哪些新特性及變更?谷歌Android
- 谷歌啟動醫療健康新專案:大資料疾病預防谷歌大資料
- 谷歌遊戲新規則:模糊桌面和搜尋界線谷歌遊戲
- 造機器人造芯後,又跨界醫療,董明珠在布一盤什麼局?機器人
- 數學界的阿爾法狗要來了?谷歌公佈可媲美奧賽金牌得主的新AI谷歌AI
- AI新玩法!阿里雲聯合優酷跨界打造Create@AI江湖創作大賽AI阿里
- Edelman:調查顯示人們更信任谷歌新聞谷歌
- 多模態AI是醫學的未來,谷歌推出三個新模型,Med-Gemini迎來大升級AI谷歌模型
- JDK 12又來了,我學不動了...JDK
- Leap Motion新技術:能追蹤更細緻的手部動作
- Android Q 新特性及變更記錄Android
- 谷歌NLP新模型「大鳥」突破BERT限制,稀疏注意力機制更省記憶體谷歌模型記憶體
- 全面突圍,谷歌昨晚更新了一大波大模型產品谷歌大模型
- 下架App數量又漲?熱搜榜比重變動,iOS14的新功能和新變化又將帶來哪些動盪?APPiOS
- 語音合成之王ElevenLabs攪局音樂界,新模型創作水準堪馳援《歌手》模型
- 可變形卷積網路:計算機新“視”界卷積計算機
- 外媒:OpenAI 、Anthropic、谷歌新模型表現均不及預期OpenAI谷歌模型
- (附論文+原始碼)拋棄注意力,比EfficientNet快3.5倍,類Transformer新模型跨界視覺任務實現新SOTA原始碼ORM模型視覺
- 範凱:大公司的創新思考:基因延伸性創新
- 史上AI最高分!谷歌大模型創美國醫師執照試題新紀錄,科學常識水平媲美人類醫生AI谷歌大模型
- 生物醫學基因大資料:現狀與展望大資料
- 哪些跨界玩醫療的網際網路巨頭
- 谷歌眼鏡改變醫學未來的三種途徑谷歌
- 求不更學不動之Redis5.0新特性Stream嚐鮮Redis
- 福布斯:騰訊的創新能力早已超越了蘋果和谷歌蘋果谷歌
- 模型越大,表現越差?谷歌收集了讓大模型折戟的任務,還打造了一個新基準谷歌大模型
- 自動駕駛又有了新玩法,德法聯手推出第一個“跨國路測”自動駕駛
- 谷歌新專利曝光:自動駕駛汽車將學會識別警車谷歌自動駕駛
- ICLR 2019 | 騎驢找馬:利用深度強化學習模型定位新物體ICLR強化學習模型
- 京東AI又有大動作,上海人工智慧創新中心來了AI人工智慧
- 運籌新資料,中山大學精準醫學中心的新儲存之道
- ABP Framework 5.0 RC.1 新特性和變更說明Framework
- Python團隊還沒解散完,谷歌又對Flutter、Dart動手了Python谷歌FlutterDart
- 阿里啟動新專案:Nacos,比 Eureka 更強!阿里
- 新舊交替時代中國電信的新自我定位薦
- 如何在輕量化上做創新,這幾年動作遊戲的變革遊戲