我們身體裡的每一個細胞都讀取著一本同樣的書——相同的基因組,亦即被編譯成DNA密碼、用以製造蛋白質的指令集。但是,我們體內不同細胞的功能卻非常不同。神經元傳送電訊號,肝細胞分解化學物質,肌肉細胞讓身體動起來。這些細胞採用了相同的基礎基因指令,卻執行著各種不同的特殊功能,為什麼?答案就隱藏在支配蛋白質生產的這套複雜的多層系統裡。
[caption id="attachment_5293" align="aligncenter" width="615"]

每份食譜都有烹飪指南和配料介紹。人類基因組也是如此。指南出了問題,就會有患病的風險。[/caption]
到目前為止,所有的基因研究都專注於基因組的那百分之一,也就是為蛋白質指定遺傳密碼的部分。但是,一項發表在《科學》雜誌上的新研究卻首次繪製出了負責蛋白質製造過程的那部分基因組圖譜。多倫多大學的計算機生物學家Brendan Frey領導了這項新研究,他說,「有書看是一回事,但最大的問題是怎麼讀這本書。」
Frey將基因組比喻成烹飪食譜。所有的食譜都既包括配料清單,比如麵粉、雞蛋和奶油,也有做法指導。在細胞裡,配料就是為蛋白質指定遺傳密碼的那部分基因組;圍繞它們的是基因組指令,告訴它們如何使用這些配料。
麵粉、雞蛋和奶油能做出幾百種不同的烘焙食物,同樣,基因成份也有很多種組合方式。這一過程就是可變剪接(alternative splicing),也是細胞從單一基因程式碼創造出如此多的細胞種類的過程。Frey和他的同事使用了一種成熟的機器學習模型(form)來識別這套指令集中的突變,預測這種突變可能造成的影響。
[caption id="attachment_5294" align="aligncenter" width="615"]

Olena Shmahalo/Quanta Magazine[/caption]
研究人員已經識別出可能引發自閉症的風險基因,目前正在研發一種系統,用以預測與癌症有關的基因突變是否有害。MIT計算機生物學家Chris Burge(沒有參加這項研究)認為,「論文為基因科學家們提供了識別利害相關變異(variants of interest)的工具,希望能對人類基因領域的研究有重大影響。」
但是,這項研究的真正重要性可能在於這些新工具,它們能探測到龐大的DNA片段,到目前為止,我們還很難解釋這些片段。許多基因研究只對產生蛋白質的小部分基因組進行了排序。休斯頓貝勒醫學院的生物學家Tom Cooper 說,「這也論證了對整個基因組進行測序的重要性。」
閱讀食譜
剪接程式碼僅是非編碼基因組的一部分,雖不生產蛋白質卻非常重要。大約90%的基因會進行可變剪接,科學家估計所有與疾病相關突變中,剪接程式碼變異佔了10-50%。Frey說,「管理程式碼發生突變,健康就會有大問題。」
耶魯大學的生物資訊學家Mark Gerstein(未參與這項研究)說,「過去,人們之所以專注蛋白質編碼部分的突變,某種程度上是因為他們能更好地處理這些突變所為。隨著對蛋白質編碼區域之外DNA序列理解的加深,我們也會更好地認識到它們對疾病治療的重要性。」
科學家們已經開始理解細胞如何選擇某種特定蛋白質組合,但是支配這一過程的許多程式碼仍是個謎。2010年,Frey團隊發表過一篇論文,他們識別出了老鼠基因組內一個支配剪接的粗糙程式碼(a rough code)。過去四年,基因資料,特別是人類資料的質量顯著提高,機器學習技術日益成熟,為Frey及其合作者的這項研究提供了可能:人類基因組中,許多點上的特定突變如何影響到可變剪接。MIT計算機生物學家Manolis Kellis(未參與這項研究)說,「最終,全基因組資料庫讓這種預測成為可能。」