機器學習:解讀基因密碼「食譜」

PSI內容合夥人發表於2015-10-21
我們身體裡的每一個細胞都讀取著一本同樣的書——相同的基因組,亦即被編譯成DNA密碼、用以製造蛋白質的指令集。但是,我們體內不同細胞的功能卻非常不同。神經元傳送電訊號,肝細胞分解化學物質,肌肉細胞讓身體動起來。這些細胞採用了相同的基礎基因指令,卻執行著各種不同的特殊功能,為什麼?答案就隱藏在支配蛋白質生產的這套複雜的多層系統裡。 [caption id="attachment_5293" align="aligncenter" width="615"]img_0148 每份食譜都有烹飪指南和配料介紹。人類基因組也是如此。指南出了問題,就會有患病的風險。[/caption] 到目前為止,所有的基因研究都專注於基因組的那百分之一,也就是為蛋白質指定遺傳密碼的部分。但是,一項發表在《科學》雜誌上的新研究卻首次繪製出了負責蛋白質製造過程的那部分基因組圖譜。多倫多大學的計算機生物學家Brendan Frey領導了這項新研究,他說,「有書看是一回事,但最大的問題是怎麼讀這本書。」 Frey將基因組比喻成烹飪食譜。所有的食譜都既包括配料清單,比如麵粉、雞蛋和奶油,也有做法指導。在細胞裡,配料就是為蛋白質指定遺傳密碼的那部分基因組;圍繞它們的是基因組指令,告訴它們如何使用這些配料。 麵粉、雞蛋和奶油能做出幾百種不同的烘焙食物,同樣,基因成份也有很多種組合方式。這一過程就是可變剪接(alternative splicing),也是細胞從單一基因程式碼創造出如此多的細胞種類的過程。Frey和他的同事使用了一種成熟的機器學習模型(form)來識別這套指令集中的突變,預測這種突變可能造成的影響。 [caption id="attachment_5294" align="aligncenter" width="615"]Olena Shmahalo/Quanta Magazine Olena Shmahalo/Quanta Magazine[/caption] 研究人員已經識別出可能引發自閉症的風險基因,目前正在研發一種系統,用以預測與癌症有關的基因突變是否有害。MIT計算機生物學家Chris Burge(沒有參加這項研究)認為,「論文為基因科學家們提供了識別利害相關變異(variants of interest)的工具,希望能對人類基因領域的研究有重大影響。」 但是,這項研究的真正重要性可能在於這些新工具,它們能探測到龐大的DNA片段,到目前為止,我們還很難解釋這些片段。許多基因研究只對產生蛋白質的小部分基因組進行了排序。休斯頓貝勒醫學院的生物學家Tom Cooper 說,「這也論證了對整個基因組進行測序的重要性。」

閱讀食譜

剪接程式碼僅是非編碼基因組的一部分,雖不生產蛋白質卻非常重要。大約90%的基因會進行可變剪接,科學家估計所有與疾病相關突變中,剪接程式碼變異佔了10-50%。Frey說,「管理程式碼發生突變,健康就會有大問題。」 耶魯大學的生物資訊學家Mark Gerstein(未參與這項研究)說,「過去,人們之所以專注蛋白質編碼部分的突變,某種程度上是因為他們能更好地處理這些突變所為。隨著對蛋白質編碼區域之外DNA序列理解的加深,我們也會更好地認識到它們對疾病治療的重要性。」 科學家們已經開始理解細胞如何選擇某種特定蛋白質組合,但是支配這一過程的許多程式碼仍是個謎。2010年,Frey團隊發表過一篇論文,他們識別出了老鼠基因組內一個支配剪接的粗糙程式碼(a rough code)。過去四年,基因資料,特別是人類資料的質量顯著提高,機器學習技術日益成熟,為Frey及其合作者的這項研究提供了可能:人類基因組中,許多點上的特定突變如何影響到可變剪接。MIT計算機生物學家Manolis Kellis(未參與這項研究)說,「最終,全基因組資料庫讓這種預測成為可能。」 <embed>

Frey 討論他的團隊如何用深度學習來了解基因組以及為什麼他相信「我們發現的這種技術能夠革命醫療。」

Frey的團隊利用深度學習的方法。正如任何一種機器學習的演算法,建立模型去發現兩組資料之間的關係。在這個案例中,是兩組取自不同身體組織的基因樣本,所攜帶的蛋白分子數量不同(就像兩個蛋糕食譜有著不同的麵粉和糖的配比,大腦細胞和肝細胞產生的每種蛋白質的數量也不盡相同)。本質上,是用演算法訓練了一個計算機模型,讓它可以讀取DNA中埋藏的基因指令。

其實,科學家們早已經知道如何讀取基因剪接密碼,但是新的模型有一個非常獨特之處——可以讓科學家預測一大串基因組織之間的互相影響。Burge說:「這個團隊將我們已知的剪接密碼資料放到一個計算機模型中,從中我們能夠衡量所有變數。」

例如,研究人員可以利用模型去預測當管理程式碼中發生錯誤時,蛋白質會發生什麼事情。蛋白質剪接過程中的突變已經證實可導致包括脊髓性肌肉萎縮症(造成嬰兒夭折的一個主要原因)以及直腸癌。在最新研究中,研究員運用訓練過的模型去分析一些患者的基因資料。他們發現了一些已知的突變與瘧疾的聯絡,證明了模型的有效性。他們還挑選出了一些具有有自閉症傾向的突變基因樣本。

Frey說這個模型的優點之一是該資料庫並不是用疾病資料來訓練的,因此它能夠分析任何疾病或者感興趣的特徵。研究人員計劃將該系統開放,這樣科學家們就可以將該模型應用在更多種類的疾病分析上。

更廣的語境

Frey說這個模型還表明,「語境對基因組非常重要,就像英語中的『Cat』可以表示一種寵物,也可以指一種建築裝置(譯者注,指卡特彼勒(CAT)公司的建築機械)。」同樣的,細胞如何詮釋一系列剪接指令是依賴於附近其他的指令。一串帶有「製造大量元件X」指令的DNA,當它附近有第二組指令時,可能意味著「不要製造元件X」。Frey說,「一個序列是否產生影響,取決於其他序列是否發揮影響。不理解這一點,就很難去預測一個模型將如何影響剪接。」

另外,這個模型能幫科學家反思已知的突變,Burge說。研究者已經知道,蛋白質編碼區域的一些剪接指令已經被發現。在這些情形下,相同的基因序列能夠對成分以及如何處理它的指令進行同時編碼。(想想whipped cream(生奶油,或者摜奶油)——它是一種成分,但在某種情形下也是一種指令。)在這個蛋白質編碼區域的突變,如果它對於改變相應蛋白質貢獻很少,它就會被視為不重要而被捨棄。但是當解讀剪接編碼時,此突變可能會通過干擾剪接指令,而展現出深遠的影響。Frey的團隊在基因組中發現了許多相關錯誤的例子。

Frey希望這個模型最終能對個性化醫療發揮用處。例如,醫生還不能決定某些健康人攜帶的新突變是否有癌變等惡化的傾向。假如進行更多的驗證, Frey的模型可能將有助於回答這個問題。 Frey說,「我們能分析任何突變,甚至是那些還沒有被識別的突變」。這使得研究員可以去預測新突變是危險的還是無害的——從本質上說,這就是執行一個篩查測試。他說,「我希望它對醫療產生重大影響,我想將它用於實踐。」

本文選自quantamagazine,作者Emily Singer,機器之心翻譯出品。參與人員:微胖,妞妞姐姐,salmoner,汪汪。

相關文章