藉助機器學習提高CRISPR基因編輯準確率

微軟研究院AI頭條發表於2018-01-12

mmbizgif?wxfrom=5&wx_lazy=1


編者按:基因編輯技術CRISPR就像是一種奈米級的“針線包”,可以在特定位置上對DNA進行剪下和修改。為了使CRISPR的操作更加準確,研究員們開發出了一套藉助機器學習來讓CRISPR減少“脫靶效應”的計算工具——Elevation。目前,Elevation以及另外一款用於預測在靶效應的補充工具Azimuth起釋出微軟Azure上供大家免費使用,同時也以開源的形式向公眾開放。本文翻譯自Researchers use AI to improve accuracy of gene editing with CRISPR。


?wx_fmt=jpeg

從左至右:微軟研究員NicoloFusiUC Berkeley教授Jennifer ListgartenBroad研究所副總監JohnDoench


CRISPR(成簇規則間隔短迴文式重複)是一項正在徹底改變醫療保健和農業等眾多產業的基因編輯技術,就像是一種奈米級的“針線包”,可以在特定基因的特定位置上對DNA進行剪下和修改。這項技術可能會帶來突破性的應用,例如對細胞進行修改以對抗癌症,或生成高產、抗旱的小麥和玉米等農作物等。

 

儘管CRISPR在一些領域有著很好的應用前景,但它也面臨挑戰:由於很多基因組區域是相似的,奈米級“針線包”可能會意外地在錯誤的基因上“動手腳”,從而導致意想不到的後果——即所謂“脫靶效應”。

 

為了解決上述難題,來自美國各地研究機構的電腦科學家和生物學家通力合作,開發了一套可提升CRISPR效率和準確性的計算工具——Elevation,它能借助機器學習預測用CRISPR進行編輯基因時可能出現的“脫靶效應”。

 

目前,Elevation以及另外一款用於預測在靶效應的補充工具Azimuth一起,已經作為基於雲的端到端服務在微軟Azure上供大家免費使用,同時也以開源的形式向公眾開放。

 

利用這套工具,研究人員只需輸入他們希望修改的基因名稱,雲基搜尋引擎將返回一份嚮導RNA列表,研究人員可以通過預測的在靶或脫靶效應對其進行排序並選擇。




640.png?

源於自然


CRISPR基因編輯系統源自自然界反病毒機制。科學家於20世紀80年代後期在細菌的DNA中發現了它,此後花費了數十年的時間弄清了它的工作原理。

 

CRISPR描述了細菌基因組中的一種由多個DNA重複序列區和多個短小的非重複的DNA間隔區組成的DNA序列。非重複間隔區是來自入侵病毒DNA的拷貝,被稱為RNA的分子信使將以它為模板,識別後續的病毒侵染。當檢測到入侵者時,RNA將CRISPR複合物引導至病毒處,並指派與CRISPR相關(或稱Cas)的蛋白質前去切斷病毒基因,使之失效。


2012年,分子生物學家想出了改造細菌反病毒系統的方法,用於對植物、老鼠乃至人類等各類生物的基因進行編輯,這就是CRISPR-Cas9基因編輯技術。其基本工作機理如下:科學家設計合成嚮導RNA,與他們希望剪下或編輯的基因中的DNA序列進行匹配,並用CRISPR相關蛋白剪刀(即Cas9)將其釋放到某個細胞中。


今天,這項技術被當作一種有效、精確的方法,被廣泛用於瞭解生物中基因個體的作用,以及如何通過改變基因來完成從抗擊疾病到增加食物供給等各項使命。


對於研究人員來說,這個方法最大的挑戰就是在給定實驗中決定應該選擇什麼樣的嚮導RNA。因為每個嚮導RNA中大約有20個核苷酸;在基因敲除實驗中,每個標靶基因都有數百個潛在嚮導RNA。一般而言,每個嚮導RNA都具有互不相同的在靶效率和不同程度的脫靶問題。

 

電腦科學家和生物學家之間協作的重點是建立工具,幫助研究人員選擇最適和當前實驗的嚮導RNA。

 

640.png?

訓練模型


為了能解決在試驗中正確選擇嚮導RNA的難題,研究人員首先用資料訓練了第一層機器學習模型。這些資料記錄了與給定的嚮導RNA有一項核苷酸不匹配的所有可能的標靶區域裡發生的脫靶活動。

 

接著,機器學習專家利用哈佛醫學院和馬薩諸塞州總醫院合作者此前生成的公開資料,對第二層機器學習模型進行了訓練,將第一層模型加以細化,並推廣到存在一個以上不匹配核苷酸的標靶區域中。

 

專家表示第二層模型非常重要,因為脫靶活動往往發生在嚮導RNA與標靶之間存在多個核苷酸不匹配的情況下。

 

最後,團隊用其它幾個公開資料集以及哈佛醫學院和馬薩諸塞州總醫院下屬合作機構建立的新資料集對雙層機器學習模型進行了驗證。研究人員發現一些模型特徵非常直觀的,例如嚮導RNA與核苷酸序列之間的不匹配。另一些特徵則反映了通過機器學習從DNA編碼中發現的某些未知屬性。

 

640.png?

脫靶分值


脫靶分值是針對基因組上可能發生脫靶活動的每個區域,基於機器學習計算出的概率。針對每一種嚮導RNA,Elevation為研究人員提供了兩類脫靶分值:在某個標靶區域裡的單項分值和該向導RNA在所有標靶區域的總分。對於每個嚮導RNA,Elevation都會返回數百到數千個此類脫靶分值。

 

嚮導RNA的數量可能成千上萬,針對某個特定實驗,研究人員想要通過對比這些單項的脫靶分值來選擇適合的嚮導RNA非常困難。所以就需要把所有單項的脫靶分值加總出一個單一的總分,用來反映特定向導RNA的所有潛在脫靶效應在多大程度上會對細胞造成破壞。對於生物學家來說,重要的並非基因組中每個點上的概率,而是某嚮導RNA的各種脫靶活動導致細胞破壞的總體概率。


來自微軟研究院、麻省理工學院、哈佛大學、加州大學洛杉磯分校、馬薩諸塞州總醫院和哈佛醫學院的合作者們已經通過Nature Biomedical Engineering雜誌發表了關於Elevation的論文。點選“閱讀原文”,檢視論文。


你也許還想


 張益肇:AI+醫療,微軟有哪些佈局?

 這是一管資訊量很大的DNA

 微軟釋出升級版認知工具包,加速深度學習研發


640.png?

感謝你關注“微軟研究院AI頭條”,我們期待你的留言和投稿,共建交流平臺。來稿請寄:msraai@microsoft.com。


640.jpeg?


相關文章