2015041013392740555477

大資料:一個我們經常看到、聽到的詞語,但卻難以理解。華盛頓大學(Washington University)工程與應用科學學院(School of Engineering & Applied Science)的電腦科學家們處理了有關一種重要蛋白質的一些大資料,並發現這種蛋白質在人類歷史上的聯絡網及在複雜神經疾病中所起作用的線索。

電腦科學研究助理教授Sharlee Climer博士和電腦科學及醫學院遺傳學教授Zhang Weixiong博士通過一種新穎的大資料分析方法發現14號染色體上包含有橋尾蛋白基因(gephyrin gene)的區域在幾千年前向兩個完全相反的方向分裂之後經歷了快速的進化。這些被稱為陰陽(yin and yang)的相反方向在今天世界上不同的人群中仍很明顯。

他們同人文與科學學院(College of Arts & Sciences)生物學系(Department of Biology)Charles Rebstock榮譽退休教授Alan Templeton博士共同完成的該項研究結果發表在3月27日的Nature Communications上。

橋尾蛋白是腦中傳遞資訊受體的主調節因子。該蛋白的功能失調會導致癲癇、阿爾茨海默病(Alzheimer’s disease)、精神分裂症(schizophrenia)及其它神經疾病。此外,沒有橋尾蛋白我們的身體就不能合成必要的微量營養素。

該研究團隊利用了來自國際人類基因組單元型圖計劃(International HapMap Project)以及千人基因組計劃(1000 Genomes Project)的大資料。國際人類基因組單元型圖計劃是一個有世界範圍內人群遺傳資料的公共資源,旨在幫助研究者找到同人類疾病相關的基因。千人基因組計劃是另一個已測序人類基因組的公共資料庫。他們一共研究了3,438名個體的遺傳資料。

分析這些資料時,他們在一個被稱為單元型的包含橋尾蛋白的標記物序列中有了一個有趣的發現:高達80%的該單元型都要麼完美結合的陰陽型,要麼是彼此完全相反的型別,即陰型和陽型。他們可以追蹤此分裂到稱為單元型始祖單元型(Ancestral haplotype),或是最近的人類共同祖先。

Climer說:“我們觀察到始祖單元型分裂為兩個不同的單元型後繼而經歷了快速的進化,每一個單元型都擁有大約140個不同於始祖單元型的標記物。數量眾多的突變將會產生大量的中間單元型,但這些中間型別幾乎全部消失了,而不同的陰、陽單元型在代表每一個重要人類祖先的種群中都普遍存在。”

利用來自單元型圖計劃(HapMap Project)的資料,他們研究了幾個不同人群的橋尾蛋白區域,其中包括歐洲、東南亞和非洲後裔,找到每一人群中單元型頻繁變化的變異體。那些來自非洲的一般有更多的陽單元型,而那些歐洲起源的則有更多的陰單元型。那些亞洲血統的有著幾乎相等數量的陰、陽單元型。

人類攜帶有成對的染色體,30%的日本人攜帶兩個陰單元型或兩個陽單元型。另30%個體擁有一個陰單元型和一個陽單元型,反映出大致相同的遺傳概率。

為在巨大的資料集中發現這個模式,研究團隊使用一種新的方法來評估單核苷酸多型性(single nucleotide polymorphisms, SNPs)或SNPs的遺傳標記物中的相關性。SNPs是使人類彼此各不相同的DNA序列中的變數元素。

該團隊的方法,稱為“BlocBuster”,即計算每一對SNPs間的相關性,並建立一個這些相關性的關係網。通過觀察這一關係網,研究者可以找到很多相互關聯的標記物。

Climer說:“例如,你可以利用你臉譜(Facebook)上的所有朋友建一個臉譜網路。如果你的朋友中有兩個彼此也是朋友,你就可以在網路中把他們聯絡起來。如果你看到有一群人彼此都互相聯絡起來,他們可能有某些共同點,比如親屬關係、同上一所學校或者某些型別的社會交往關係。類似地,通過有效的演算法和足夠的處理員和時間,我們可以研究每一對SNPs,建立這樣的關係網並觀察許多互相聯絡的SNPs。”

Zhang表示:“‘BlocBuster’方法是全基因組關聯研究(genome-wide association studies, GWAS),或廣為人知的GWAS傳統方法的正規化轉變,傳統方法中一次只有一個或幾個標記物被研究。新方法確實是應對如單元型圖計劃和千人基因組計劃這樣大資料的資料探礦挖掘式技術。”

研究者也可以對該方法進行設計來研究複雜性狀和複雜疾病。

Zhang說,“‘BlocBuster’能夠檢測網路化的、複雜性狀典型的遺傳標記物組合。該方法適用於分析諸如體重這樣由多個遺傳因子決定的性狀,以及種群中的遺傳模式,例如我們發現的陰-陽單元型。”

最終,他們希望這種方法將闡明疾病的遺傳根源。

Climer說,“最複雜疾病是由一組遺傳變異一起相互作用而引發的。患有某種疾病的不同人群可能是受不同組變異體的影響。當一次研究一個標記物時沒有足夠的力量來看到這些複雜的關聯。我們正採用一種混合的方法,同時研究這些標記物的組合,這樣才能搞清楚那些模式。”

via:科學之家