藉助機器學習提高CRISPR基因編輯準確率
編者按:基因編輯技術CRISPR就像是一種奈米級的“針線包”,可以在特定位置上對DNA進行剪下和修改。為了使CRISPR的操作更加準確,研究員們開發出了一套藉助機器學習來讓CRISPR減少“脫靶效應”的計算工具——Elevation。目前,Elevation以及另外一款用於預測在靶效應的補充工具Azimuth一起釋出在微軟Azure上供大家免費使用,同時也以開源的形式向公眾開放。本文翻譯自Researchers use AI to improve accuracy of gene editing with CRISPR。
從左至右:微軟研究員NicoloFusi,UC Berkeley教授Jennifer Listgarten,Broad研究所副總監JohnDoench
CRISPR(成簇規則間隔短迴文式重複)是一項正在徹底改變醫療保健和農業等眾多產業的基因編輯技術,就像是一種奈米級的“針線包”,可以在特定基因的特定位置上對DNA進行剪下和修改。這項技術可能會帶來突破性的應用,例如對細胞進行修改以對抗癌症,或生成高產、抗旱的小麥和玉米等農作物等。
儘管CRISPR在一些領域有著很好的應用前景,但它也面臨挑戰:由於很多基因組區域是相似的,奈米級“針線包”可能會意外地在錯誤的基因上“動手腳”,從而導致意想不到的後果——即所謂“脫靶效應”。
為了解決上述難題,來自美國各地研究機構的電腦科學家和生物學家通力合作,開發了一套可提升CRISPR效率和準確性的計算工具——Elevation,它能借助機器學習預測用CRISPR進行編輯基因時可能出現的“脫靶效應”。
目前,Elevation以及另外一款用於預測在靶效應的補充工具Azimuth一起,已經作為基於雲的端到端服務在微軟Azure上供大家免費使用,同時也以開源的形式向公眾開放。
利用這套工具,研究人員只需輸入他們希望修改的基因名稱,雲基搜尋引擎將返回一份嚮導RNA列表,研究人員可以通過預測的在靶或脫靶效應對其進行排序並選擇。
源於自然
CRISPR基因編輯系統源自自然界反病毒機制。科學家於20世紀80年代後期在細菌的DNA中發現了它,此後花費了數十年的時間弄清了它的工作原理。
CRISPR描述了細菌基因組中的一種由多個DNA重複序列區和多個短小的非重複的DNA間隔區組成的DNA序列。非重複間隔區是來自入侵病毒DNA的拷貝,被稱為RNA的分子信使將以它為模板,識別後續的病毒侵染。當檢測到入侵者時,RNA將CRISPR複合物引導至病毒處,並指派與CRISPR相關(或稱Cas)的蛋白質前去切斷病毒基因,使之失效。
2012年,分子生物學家想出了改造細菌反病毒系統的方法,用於對植物、老鼠乃至人類等各類生物的基因進行編輯,這就是CRISPR-Cas9基因編輯技術。其基本工作機理如下:科學家設計合成嚮導RNA,與他們希望剪下或編輯的基因中的DNA序列進行匹配,並用CRISPR相關蛋白剪刀(即Cas9)將其釋放到某個細胞中。
今天,這項技術被當作一種有效、精確的方法,被廣泛用於瞭解生物中基因個體的作用,以及如何通過改變基因來完成從抗擊疾病到增加食物供給等各項使命。
對於研究人員來說,這個方法最大的挑戰就是在給定實驗中決定應該選擇什麼樣的嚮導RNA。因為每個嚮導RNA中大約有20個核苷酸;在基因敲除實驗中,每個標靶基因都有數百個潛在嚮導RNA。一般而言,每個嚮導RNA都具有互不相同的在靶效率和不同程度的脫靶問題。
電腦科學家和生物學家之間協作的重點是建立工具,幫助研究人員選擇最適和當前實驗的嚮導RNA。
訓練模型
為了能解決在試驗中正確選擇嚮導RNA的難題,研究人員首先用資料訓練了第一層機器學習模型。這些資料記錄了與給定的嚮導RNA有一項核苷酸不匹配的所有可能的標靶區域裡發生的脫靶活動。
接著,機器學習專家利用哈佛醫學院和馬薩諸塞州總醫院合作者此前生成的公開資料,對第二層機器學習模型進行了訓練,將第一層模型加以細化,並推廣到存在一個以上不匹配核苷酸的標靶區域中。
專家表示第二層模型非常重要,因為脫靶活動往往發生在嚮導RNA與標靶之間存在多個核苷酸不匹配的情況下。
最後,團隊用其它幾個公開資料集以及哈佛醫學院和馬薩諸塞州總醫院下屬合作機構建立的新資料集對雙層機器學習模型進行了驗證。研究人員發現一些模型特徵非常直觀的,例如嚮導RNA與核苷酸序列之間的不匹配。另一些特徵則反映了通過機器學習從DNA編碼中發現的某些未知屬性。
脫靶分值
脫靶分值是針對基因組上可能發生脫靶活動的每個區域,基於機器學習計算出的概率。針對每一種嚮導RNA,Elevation為研究人員提供了兩類脫靶分值:在某個標靶區域裡的單項分值和該向導RNA在所有標靶區域的總分。對於每個嚮導RNA,Elevation都會返回數百到數千個此類脫靶分值。
嚮導RNA的數量可能成千上萬,針對某個特定實驗,研究人員想要通過對比這些單項的脫靶分值來選擇適合的嚮導RNA非常困難。所以就需要把所有單項的脫靶分值加總出一個單一的總分,用來反映特定向導RNA的所有潛在脫靶效應在多大程度上會對細胞造成破壞。對於生物學家來說,重要的並非基因組中每個點上的概率,而是某嚮導RNA的各種脫靶活動導致細胞破壞的總體概率。
來自微軟研究院、麻省理工學院、哈佛大學、加州大學洛杉磯分校、馬薩諸塞州總醫院和哈佛醫學院的合作者們已經通過Nature Biomedical Engineering雜誌發表了關於Elevation的論文。點選“閱讀原文”,檢視論文。
你也許還想看:
感謝你關注“微軟研究院AI頭條”,我們期待你的留言和投稿,共建交流平臺。來稿請寄:msraai@microsoft.com。
相關文章
- CRISPR基因編輯
- CRISPR基因編輯技術會不會威脅人類自身?
- 機器學習之分類:準確率機器學習
- CRISPR基因編輯技術又取得了這些爆炸式的驚人進展
- Java 藉助ImageMagic實現圖片編輯服務Java
- 如何藉助 NoSQL 提高 JPA 應用效能SQL
- 準確率達 95%,機器學習預測複雜新材料合成機器學習
- 在Android中藉助TensorFlow使用機器學習Android機器學習
- 基因編輯技術大熱,未來基因技術猜想
- 機器學習之分類:精確率和召回率機器學習
- NLPIR利用知識圖譜技術提高智慧問答準確率
- 【火爐煉AI】機器學習011-分類模型的評估:準確率,精確率,召回率,F1值AI機器學習模型
- NLPIR語義分析系統不斷提高中文分詞準確率中文分詞
- 準確率評價指標指標
- 基因檢測精確查明病情、精準診治疾病
- 混淆矩陣、準確率、精確率/查準率、召回率/查全率、F1值、ROC曲線的AUC值矩陣
- 機器學習診斷準確率高達90%,讓這種疾病無處可逃機器學習
- 【機器學習】什麼樣的機器學習產品是最符合使用者需求的;機器學習模型的衡量不止準確率:還有精度和召回率機器學習模型
- 案例分享:FanHero藉助Cloudflare 等候室提高使用者體驗Cloud
- 基因黑客張鋒!講述CRISPR背後不為人知的故事黑客
- 準確率達100%,「人機互動」機器學習,驅動有機反應精確原子對映研究機器學習
- IBM:如何藉助天氣洞察提高經濟效益(附下載)IBM
- 分類準確率達99%,山大團隊提出基於對比學習的基因資料分類方法
- 藉助ServiceDesk Plus,更接近ISO 27001變更管理標準
- 在 Laravel 中藉助 erusev/parsedown 包解析 Markdown 文字的正確方式Laravel
- CRISPR:新技術可精確敲除單鹼基
- 藉助亞馬遜S3和RapidMiner將機器學習應用到文字挖掘亞馬遜S3API機器學習
- 如何藉助 Django 來編寫一個 Python Web APIDjangoPythonWebAPI
- 零售行業如何藉助數字化轉型提高業務?行業
- 在有限 computational budget 下,藉助 low-fidelity 模型提高精度IDE模型
- 中小企業藉助IT提高競爭力 要用ERP以小博大(轉)
- 【公式】殺號公式準確率可達98公式
- 智慧手機測癌症準確率達99%?
- AI預測心力衰竭,準確率竟100%!網友:門外漢濫用機器學習AI機器學習
- 機器學習之邏輯迴歸:計算機率機器學習邏輯迴歸計算機
- 藉助babel理解jsxBabelJS
- 高盛:藉助生成式AI的推動 美國勞動生產力年增長率將提高1.5個百分點AI
- 藉助 SublimeLinter 編寫高質量的 JS & CSS 程式碼JSCSS