10EB量級的基因大資料處理技術

InfoQ - 崔康發表於2015-08-06

很榮幸在這裡跟大家分享大家以前很少接觸到的領域的大資料情況。其實生命科學的大資料還處在比較初始的階段,否則國家也不會現在才開始提出精準醫學這樣的概念。所謂精準醫學想通過大資料模型準確預測預防,個性化的給每個人提供健康解決方案的專案。

機能強大的人腦

作為生命科學來說首先是要認識自己,這是剛剛去世的納什,諾貝爾獎獲得者,這個圖片講的是他到五角大樓裡面去幫五角大樓破解蘇聯密碼,結果他看著滿牆數字跳動的時候很自然的圈定幾個數字,把蘇聯計劃進入美國的經緯度所謂的密碼數字圈了出來,幫助五角大樓瓦解蘇聯的進攻。

從這個例子我們應該看到其實我們每個人的大腦都是非常強的大資料處理機器,接下去我大概講一下我們大腦為什麼會這麼強,大腦的處理能力有多強。我們大腦只有140億個腦細胞,從出生到死亡基本是不會變的。為什麼從出生到死亡我們的知識是不一樣的,就是因為腦細胞會建立突出的連線,這個人越聰明突出的連線就越複雜。

二是大腦的能耗特別低,只有20瓦,大家在拼命思考的時候腦子會發熱,不會像CPU一樣熱的過高燒起來。

我們做一項對比,我們把大腦跟英特爾剛出的e7的CPU對比,這樣一個CPU大概有56億個,能耗要105瓦,我們大腦在能耗上面跟CPU對比處理能力和能耗比,比現在的機器強很多。

從一生過程來看,人的一生大概能儲存100PB的儲存量,是美國600個國家圖書館的量,加起來是140PB,正常人是能儲存140個PB。這是什麼概念?比如說因特網上所有的音樂加起來就是10個P左右。大腦的集散能力也特別強,一天能處理86G的資訊,如果把處理能力換算成超算的計算速度,大腦的計算速度在3.5EFlops,現在超級計算機遠遠沒有達到。

現在最快的天河2號連續五年拿到了世界超算排名第一的計算機研究,可見大腦的計算能力相當可以。另外一個例子,我們眼睛的解析度大概是5.7千萬畫素,人的眼睛到這麼高的解析度,但人的大腦還能實時處理這些圖片,以每秒25幀的資料處理,大腦的資料能力是非常強的。

我們先認識一下自己的大腦還是非常強大的,在某個專業領域跟計算機領域比還是有不足,但整體比較計算機是很難超越人的大腦的。

人體大資料

我們說到大資料有兩層含義,有的大資料是數量上面的,有的大資料是資料大小上面。我們再來認識一下我們自己身體其它部位的大資料的情況,人類的基因是30億個鹼基,整個身體大概是100萬億個細胞,同時在我們的腸道里有一千萬億個細菌,腸道是我們的外環境,不要以為是我們的內環境,我們的生活是內外相互作用的結果。

如果把跟健康所有相關的資料彙總在一些,看看有哪些型別,要使遺傳資訊有功能的話,把基因組資訊翻譯成RA,再翻譯成蛋白,同時基因組還跟環境有一定的相互作用,這個相互作用是通過這裡的表觀組學來實現的。我們體內還有很多小分子,我們這裡說的叫Metabolome,Microbiome是我剛才提到的一千萬億數量的細菌,這些遺傳因素跟我們的環境有相互關係。

同時現在可穿戴的裝置特別流行,日常生活中的心電、血糖、心率都可以通過可穿戴裝置記錄下來,這也跟日常健康有很大的關係。跟神奇的是,大家不要以為社交網路跟身體沒關係,其實社交網路跟我們內在基因也是有一定的關係的,但隨著研究的發展這種關係可能會越來越強。

環境對人的影響

接下去把每個型別展開,首先講環境,每個人的健康一出生50%健康的情況就已經決定了,由你內在遺傳的物質決定,DNA決定了你接下去的生活是什麼樣的情況,另外50%就是我們剛才說的外在的環境,會對我們的健康生活產生一定的影響,這個佔50%的樣子。

這個是表觀組學,這個主要反應了環境跟內在DNA相互作用的情況。在我們三十億的鹼基裡面只有2%的鹼基是表達基因的,另外98%在科學裡面叫做垃圾基因,不管是2%的基因還是98%的垃圾基因裡面都有一些“短創”,這個短創對基因組的功能起到調控作用。科學研究表明,在三十億鹼基裡面我們發現了28890個,這個在有功能的2%的部分裡大概有56%的基因功能是受它控制的。

要把基因組環境和人的關係建立起來的話,其實要在不同的環境裡測表觀組的情況,一個人需要2個T的資料來儲存。

再就是巨集基因組,我們有1TB細菌在我們體內,這些細菌大概有兩公斤,這些細菌對我們生活起到非常大的影響或者決定性作用。

這是兩隻老鼠,這是中科院上海生命科學研究院趙力群教授的研究成果,他養的兩隻老鼠,一隻養的特別胖,一隻特別瘦,他做了一個實驗,把特別胖的老鼠的糞便做成培養液餵給瘦的老鼠,結果瘦的老鼠變得非常胖,反過來也是。表明人的腸道里的細菌跟人的飲食習慣有特別大的關係。

一個人喜歡吃什麼,其實不是你喜歡吃什麼,是你腸道里面的細菌喜歡吃什麼。這是一個很好的產業,能夠把這個問題真正解決清楚,這是一個非常大的產業。

前段時間華大基因剛發現了糖尿病跟巨集基因組之間的關係,還跟人的血壓,甚至跟癌症還有關係,能產生抗癌的基因,細菌能產生抗癌的因素幫助人類抵抗癌症。

大家到醫院檢查的時候都會查血常規,但是大家很少接觸到比較專的一些,比如說氨基酸、維他命和激素,氨基酸、維他命和激素和人的情緒、健康狀況有很大關係,你還是要時不時看一下人體裡的小分子,就是分子量在1000以下的這些分子在你體內分佈的情況。

以前我們很樂觀的認為人的基因組裡人有25000個基因組,後來隨著研究發現沒有那麼多,只有19000個,這是很悲催的,水稻的基因有3000個,其實高等的生物有另外一種基因的產生或者進入了另外一個形態。如果我們要測一個人的基因組一般會測上三十遍,才能大概把一個人的基因組的情況摸清楚,三十遍這就需要100GB的資料,如果要測一百萬人的話光資料就需要100TB。

這是轉錄組,在19000個基因裡80%的基因可能有多種形態,一段基因組轉錄出來以後有很多的酶切成不同的片段再連線起來,基因組有不同的方式,把這個形式算上去的話人大概有60000個基因,對於一個高等生物來說還算可以。

從轉錄組到真正行使功能的時候要放大成蛋白,從6000個轉錄組RNA裡提取多少蛋白,大概是二十到兩百萬之間,可見蛋白的形態比RNA更復雜,因為有很多不同的摺疊形式,不同的摺疊形式空間是不一樣的,蛋白的數量就會顯得特別多。

6788是中國人在蛋白基因組裡承擔的肝臟蛋白的專案情況,發現人的肝臟裡面大概有6788個蛋白種類,而且這裡面大概有一千種是新的。

剛才說到了這麼多小分子,他們是怎麼相互作用的,我們有這樣一個小分子基因網路的資料庫,記錄了三千個物種基因相互作用的情況。這三千個物種裡面基因的數量大概是1.2千萬個基因,1.2千萬個基因形成了相互作用的這種大概是28萬。

這就記錄了我們日常生活所有的習慣,比如說你吃米飯,米飯在你身體裡怎麼消化、怎麼吸收,怎麼轉化成糖源,所有這個過程都是通過基因網路來描述的,我們現在也只有28萬個網路,要比我們想象的少很多,當然這個資料庫還是要不斷地積累才能說清楚身體是怎麼樣的行使功能的。

基因造成的人群差異

我們再說一下人之間的差異,任何兩個人之間如果沒有基礎關係的話,它的差異只有0.5,也就是說兩個人之間大概有150兆左右的基因組序列是不一樣的,但是如果我們只看上下兩代之間的差異,這個差異就是60-100DNA序列多肽性的不一樣,這也能解釋說為什麼相似度更高一點。

這些差異從日常相貌和行動行為就能看出來,日常生活中經常看到單眼皮、雙眼皮,有些人的舌頭是可以卷的,有些不能卷,還有禿頂,男士的禿頂很大程度上跟基因是有關係的,另外還有喝酒臉不臉紅,這跟基因有很大關係,有些人喝一點點就臉紅,有些人喝很多都不臉紅。

我們再看一下人和其它物種,我們跟植物只有17%左右的基因組相似,跟我們很近的猩猩只有96%相似。

現在研究表明最大的基因,一個細胞裡面有670Gb組鹼基對,就是人的兩百多倍了,這個基因組還是很大。為什麼我們很關心基因組的大小?

大家對這個基因組稍微瞭解的話知道我們從做基因組測序來說,要把一個基因組測完整其實是很不容易的,像人的基因組是把人的基因組切成大概一個KB這樣的片段,一段段測完之後拼起來,我們現在看到人的基因組其實是1K左右的序列拼起來的。現在拼的人的基因組是3G,人的記憶體大概是500G,一臺機器要有500G的記憶體才能把3個G的基因組拼起來,那要拼600多G的基因組需要什麼計算機器呢?

這是一個很大的挑戰,我們還是比較關心基因組的大小的。同時基因組裡還有很多有趣的東西,AP+ALE 以後也很有趣,有時候測出來你不知道在哪裡,沒有證據表明一定要放在一個地方。

舉個例子,如果要把世界上所有的DNA收集起來有多重,它大概有500億噸的重量,如果要把它裝在集裝箱裡其實需要十億個集裝箱,把500億噸的DNA處理一遍的話需要10的21次方超級計算機,這其實是一個天文數字,大家很難想象,如果我們要建這麼大的模型應該怎麼處理。

我們再來看看醫學方面,我們到醫院拍一張3D核磁共振體大概需要150兆的空間,如果是3D的CT,一個結果就是一個G,當然胸透的資料和X光透視的資料相對小一點。

我們做一個統計,如果把三甲院士抽選,在美國相對還行的醫院做一個統計一年大概有3600萬個病人到醫院看病,這些病人每年在醫院裡產生的資料大概是600個TB,而且這些資料還特別複雜。

有照片的資料、有病例的資料,甚至有時間緯度的資料,這些資料還是挺複雜,80%的資料其實是非結構化的,每個醫院裡面的資料在每年以20%-40%的增長率增長,這個資料一點都不比基因組資料小,如果有剛才說的精準模型的話,它表明了你基因和外界環境相互作用的結果是什麼,所以你一定要把這個引數考慮進去,這些資料也是整合到這個模型裡做計算的。

我們大概能知道我們現在通過感測器,記錄也好、監控也好身體上的這部分資料,比如身體的坐姿、消化情況、呼吸的情況,還有心臟監護,這些資料目前都有很好的監護,這些資料也是需要整合到精準醫學的系統裡面。

最後一個是社交/婚姻基因,美國的一個測試,找了一堆很好的朋友測他們的基因,發現好朋友之間1%之間的基因相像,但是古代有酒肉朋友和異性相吸這樣的成語,有跟喝酒有關的基因,這個基因越強你可能越喜歡酗酒,酒肉朋友這個詞就可以通過這個基因來體現,還有跟荷爾蒙、情感有關的。甚至有科學家發現婚姻也與基因有關係,這個基因越向下這兩個人越傾向於在一起。

如果把所有資料整合起來,如果把一個人一生健康相關的資料整合一起需要多大,基因需要一個DB,轉錄組是0.7TB,表觀組是2TB,巨集觀基因組是3TB。如果要做一百萬人的資料大概需要10EB,像阿里,百度資料量級也差不多是這個級別了。但是做這樣一個專案需要這麼大的儲存空間。

為什麼要做精準醫學

就是希望自己活的更長,理論上講每個人如果生活的條件非常平穩、非常好的話,本身基因沒有什麼缺陷,每個人大概能活150歲,這是在理想條件下面。但實際情況並不是這樣,有15%的家庭是有不孕不育的問題,在出生的嬰兒裡大概5.6%有出生缺陷,有出生缺陷的嬰兒其實是活不了太長的,大概活到二十歲左右。

對於青年們來說還有很重要的疾病會影響他的健康狀況,比如說代謝病、癌症、傳染病,對於二十歲到五十歲之間的青年人這些疾病是他們主要疾病的威脅。對於中年人,他們的代謝病大概有30%的患病率,心血管疾病和癌症是中年人主要的生命殺手。老年人,心血管疾病的危害是特別大的,反而是癌症和老年病還好。

從這個曲線上看,1就代表了你出生的時候如果有很大缺陷的話肯定活不了太久,但是2和3恩都代表了現在大部分人的生活情況,你剛開始的時候很健康,到中老年的時候會發生各種各樣的疾病的問題,有一些疾病可以治,有一些疾病治不了的立刻掛掉,如果能治一般也是苟延殘喘維持一段時間,維持不了太久,到一定程度以後也就不行了。

比較理想的情況,我們能做到的可能是4,你出生的時候還是很健康的,一旦發現你的健康到不健康轉移的過程的時候,如果我們有很好的預測的模型,我們其實是完全可以通過一系列的干預手段把自己的健康狀況從不健康和轉化的狀態拉回來重新再往下走,就有一個很好的監控預防的體系。

在5.6%的出生缺陷了跟遺傳有關的只佔30%,但這30%也是很可觀的,這些數字是我們中國大概一年有缺陷的人口的情況。現在大家經常聽到猝死和癌症的增長,增長率都是很可怕的,癌症一年的增長率在30%到40%,在中國這個是特別嚴重的,五十幾萬猝死的人群裡面大概有15%-25%跟你的DNA是有關的。

如果這些人能夠提早的把自己的DNA或自己相關的基因檢查一遍的話其實完全可以避免,因為一旦發現這些人有相關的基因突變的話就可以警告你自己,所以你不要做太劇烈的運動、不要熬夜,有一些生活的狀況是可以調節完全避免,通過有效手段能夠避免猝死的發生。

還有癌症,大部分的癌症像現在的乳腺癌10%-15%跟基因有關,所以女性同胞們確實是可以通過檢測你相關的乳腺癌基因來提早預防乳腺癌或者卵巢癌的發生,還有直腸癌和肺癌,肺癌10%和你的基因有關。如果你真的把健康資料做一個記錄的話,其實是可以通過日常生活調節很容易避免這些嚴重的後果。

還有我們說的罕見病,霍金是得了漸凍症,發病率千分之0.6到1。如果我們完全想建立這樣一個健康的模型,我們的樣板量要足夠均勻、足夠大,所以才能抽樣到所有型別的資料,我們覺得在一百萬的時候可能把常見的常見病或複雜的遺傳疾病覆蓋住,能很好的建立這樣一個模型來預測和預防。

接下去給大家介紹幾個商業化的大家可以體驗的產品,最著名的是23andMe,現在已經積累了大概80萬個DNA的序列,我自己也有23andMe的結果。以前我特別不喜歡吃香菜,有一次23andMe給我發了一個郵件說發現你基因裡有這個問題,這個問題的基因是不喜歡吃香菜的,我就想這個還是很準確的。

23andMe另外一個很重要的例子,它是作這個領域大數變現的第一個公司,它跟羅氏(音)合作,羅氏用它清洗完的資料,給它一千萬美金,如果合作的好羅氏好像還要給他們五千萬美金。這是一個例子。

第二個例子是華大內部用的小的軟體,希望把我們日常生活記錄下來,以後可以跟你的基因組資料對一下,請私人醫生也好、遺傳諮詢師也好,請他們幫你看一下這個東西,給你制定生活的規律性的方案。

在這個App上可以通過掃二維碼獲取,裡面有可穿戴裝置的整合,還有你的運動情況、日常隱私可以記錄。華大做了一些檢測,我們做了代謝組和基因的檢測資料都可以在這個App裡看到。這個App我們沒有大的推廣,也是在做一個實驗性的東西,大家有興趣可以下載,如果大家對自己的健康足夠關心的話其實需要留心自己日常的生活的資料,這樣你好知道自己今後會有什麼樣的狀況。

第三個例子是陳鋼他們公司做的,也是國內在這個領域裡做的比較成功的商業化的例子。因為我本人比較喜歡運動,經常跑一個馬拉松,但我發現跑到10公里的時候經常抽筋,我覺得這個事情特別奇怪,把我的基因資料導到他們的系統裡看我的運動相關的基因是什麼情況,結果發現有些道理,在我的結果裡我的爆發力還行,在短程的速度能跑到每小時十公里,但是我的耐力特別差,我沒法做到很長久的運動,可能大概能解釋我跑步的情況。

另外一個我很得意的是恢復能力,跑馬拉松的人要三四天才能恢復,我大概第二天就能跑、能跳,基因的結果相對來說還是有一定的輔助作用。還有飲食跟運動對減肥的影響,這也是比較有趣的。

我跟我老婆經常較勁,我發現我只要稍微一結實體重立刻減下來或者稍微加一點運動量就立刻減下來,我老婆就不行,基因還是反應了這樣一些例子,大家有興趣還是可以看一下,比如你喜歡運動可以去看一下你運動的情況什麼樣子,對大家的生活還是有些幫助的。

第四個例子是喝酒,現在大家應酬特別多,但大家對酒精和乙醇對身體的傷害都是不知道的,這是我們近期測試的一個小的應用,測出你大概喝酒的能力怎麼樣,還可以告訴你究竟對你的傷害是什麼樣的。

如果酒精對你的傷害不大的話無所謂,如果對你的傷害很大的話就應該注意不能夠喝酒,特別是肝臟的損害,同時我覺得這個可以作為擋酒的理由,如果你喝酒能力差可以把這個拿出來,基因說明了這一點,可以作為擋酒的藉口。

最後這個例子是在國外,它可以給你一個盒子,你把你擦皮膚的棉籤寄過去,它就可以把你的菌群測一下,只能測厚壁菌、擬桿菌、變形菌這幾種。

我們為什麼要收集這些資料,是不是所有這些事情華大都可以做?不是的,我們其實還是要聯合社會上所有的公司和個人,來建立一個完整的生態系統,這樣我們才有可能收集到這麼多的資料建一個健康的模型。大概把設想寫了一下,希望把資料、資訊和知識通過API的形式整合到不同的四個層次,讓所有人在上面開發自己感興趣的健康應用來指導大家的健康生活。

相關文章