為什麼要編譯這篇文章,一方面是講述大資料在生活中的應用,另一方面,作者則寫了一些話:

通過編譯與癌症有關的文獻得知,有近90%的癌症患病風險與人們的生活方式密切相關,而程式設計師群體的生活方式,很多都處於不健康或亞健康狀態,如熬夜、加班、抽菸、缺乏運動,都是很多程式設計師的日常生活狀態。我們與其用寄希望於用最先進的技術(如大資料)來診斷和治療癌症,遠遠不如用良好的生活方式將癌症“扼殺於搖籃當中”。
2015年7月初,李開復先生在癌症醫治康復後,在其微博上解嘲自己:大家以後不要叫我李開復,叫我李康復就好了。如果生命可以後退30年,或許李先生會重新選擇自己的生活方式。有句話說得好:健康是前面的1,事業、財富、名利等都是其後的0,失去前面的1、一切皆為零!
知易行難,共勉之!

以下是正文:

目前,當人們在談及大資料時,大家更為津津樂道的是,如何利用大資料技術,挖掘出資料背後的商業新模式——然後利用這種“新”模式為公司謀取商業利益。這也難怪,無利不起早。當下,大資料之所以能發展壯大,熱火朝天,來自於諸如谷歌(Google)、亞馬遜(Amazon)及臉譜(Facebook)等網際網路巨頭的大力推動,功不可沒。

人類社會已經開啟了三次產業革命。第一次產業革命,是以蒸汽機為標誌。第二次產業革命,是以內燃機和電力發明為標誌,第三次產業革命,是以可再生能源(如核能)和網際網路為標誌。有研究表明,大資料或作為動力引擎之一,引領人類的第四次產業革命。

如果大資料的用途,僅侷限於幫商業大佬們掙點錢花,那它絕對不能擔當起“天將降大任於斯人也”的重責。目前,科學技術已極大地擴充了人類的視野,大到通過是通過天文望遠鏡,探索浩瀚無邊的宇宙空間,小到利用顯微鏡細,致觀察構成自然界的最小微生物,科學技術無不扮演著重要的角色。

然而,多年以來,在人類社會,一直存在著一個難以降服的惡疾——癌症,嚴重威脅人類的生命健康。目前,癌症已成為全球發病和死亡的最主要原因之一。據世界衛生組織(WTO)2015年最新的統計資料顯示統計資料顯示,僅2012年一年就有約1400萬新發癌症病例和820萬例癌症相關病例死亡。在未來20年裡,新發病例數將增加約70%,即死亡病例將從由2012年的1400萬上升到2200萬。

在過去的50多年裡,經過人類社會不斷的努力,癌症治癒率僅僅提升了不到8%。這是人類社會所有疑難雜病中,治癒率提升最為緩慢的一種疾病。如果某項技術能較大提升癌症的治癒率,那可真是“善莫大焉”。事實上,大資料站在當前資訊領域的最前沿,在對抗癌症的鬥爭中,可以走得更遠。

本文如下的篇幅主要分為下面6個小部分,分別用來回答如下6個小問題:(1)什麼是大資料?(2)癌症的成因是什麼?(3)大資料用之於癌症,都有哪些挑戰?(4)當前都有哪些機構在用大資料抗爭癌症?(5)癌症診療的大資料主要源於何方?(6)大資料對抗癌症的前景如何?下面一一給予介紹。

1.什麼是大資料?

在談及大資料之前,我們先說說什麼是資料。

從一開始起,人類很多的生產及交換活動,都是以資料為基礎展開的。例如,度量衡和貨幣的背後都是資料。人類最早有關資料儲存和分析的例子,莫過於記賬(或記錄財產)用的符木(Tally stick)。例如,1960年,在烏干達發現的伊桑戈骨(Ishango bone),就是史前資料儲存和計算的最早的物證(如圖1所示)。伊桑戈骨是一種由狒狒骨製作而成,距今已超過20,000年。

55a464483a514

圖1 舊石器時代晚期的伊桑戈骨頭(Ishango Bone)(圖片來源:由譯者根據維基百科圖片二次繪製而成)

舊石器時代的部落成員(特別是首領),通常會在樹棍或者動物骨頭上刻下凹槽,用以記錄日常的交易活動或物品供應。通過比較樹棍或骨頭上凹痕的多少與變化,來進行基本的資料運算,從而可使部落首領夠對一些事情進行預測,如山洞裡食物還可維持幾天,何時再去打幾隻野兔等。

在本質上,資料代表的是已發生的事實,其核心的作用則是對未來的預測。

資料的發明,對人類文明的進步,發揮了舉足輕重的作用。傳統意義上的“資料”,可視為“有依據的數字”。數字之所以誕生,就是因為人類在長期的實踐過程中體會到,難以僅僅用語言、文字和影像,來精確描繪自己身邊的世界。例如,由於每個人對“很”、“非常”這類虛詞理解不一樣,當有人問“今天天氣有多熱”,如果回答說“很熱”、“非常熱”,別人聽到後,也只能獲取一個大致的抽象印象。但如果用數字描述“今天40攝氏度”,就會毫不含糊,一清二楚。

把視野拉回當下。當人類社會進入資訊時代以後,“資料”的內涵大大地被延展了,資料不僅是指“有根據的數字”,還包括儲存在計算機中的資訊,如表格、文字、圖片、音訊和視訊等。

55a464b296f95

圖2  1986年~2007年這30年的全球資訊儲存容量變化(圖片來源:wikipedia.org)

有研究資料顯示,自1980年以來,全球資訊總量每24個月就可以翻一番。當時間邁過21世紀,自2002年數字時代開啟以來,資料呈現海量增長趨勢(如圖2所示)。特別是在2004年社交媒體產生後,人人都是資料的生產者,資料更是呈現爆炸性增長趨勢,大資料開始邁入大眾的視野。

由於處於電腦科學的前沿,大資料並沒有公認的定義。世界著名諮詢機構麥肯錫(McKinsey)公司於2011年5月釋出《大資料:下一個創新、競爭和生產力的前沿》的研究報告,報告認為:“大資料是指,大小超出了典型資料庫軟體的採集、儲存、管理和分析等能力的資料集。”

麥肯錫的這個定義有意地帶有主觀性,對於“究竟多大才算大資料”,其標準是可以調整的。臉譜(Facebook)的工程總監Parikh認為,“大資料”要有“大價值”。“大資料的意義在於,能從資料中挖掘出能對商業有價值的決策力和洞察力。如果不能好好利用自己收集到的資料,那麼空有一堆資料,即使體量再大,也不能稱之為大資料。”

在大資料時代,由於我們創造的或採集的資料量呈現爆炸性增長,與此同時,隨著先進的高效能運算技術和便捷的雲端計算技術的發展,給我們分析這些海量大資料提供了巨大的契機。抓住這個契機,比以往任何時候都更加重要。

針對癌症研究,2013年3月,世界頂級學術期刊《Cell》發表了一篇題為《從癌症基因組中得到的教訓》(Lessons from the Cancer GenomeLessons from the Cancer Genome),研究表明,很多腫瘤的發病概率呈現出一種類似於長尾分佈(“long tail” distributions)的特徵(如圖3所示),也就是說,癌症作為一種基因突變疾病,雖然對部分癌症型別,是由於某些特定基因高頻突變所致,但是更多的癌症,是由很多的發生概率極小的基因突變所致。

55a4650f8b892

圖3 長尾模型(圖片來源:由編譯者根據維基百科圖片二次繪製而成)

由於很多診療機構的癌症基因組樣本擁有量非常有限,這樣就導致,在小樣本集合裡,很多出於長尾部分的基因突變,由於發生概率極低,研究機構極有可能無法觀察到這種基因突變。

此外,由於機構之間的商業利益紛爭,加之出於癌症患者隱私的保護,醫療機構間的癌症診療基因資料無法互訪,彼此為對方的資訊“孤島”。

資訊壁壘是延緩這種嚴重威脅人類生命健康研究進展的重大原因之一。這在某種程度上解釋了為什麼過去50年癌症的治癒率僅僅提升了8%,這在所有的疑難雜症中是提升最少的!(注:若想了解更多具體詳情,建議讀者可參閱南加州大學著名腫瘤學專家、賈伯斯的主治醫生之一戴維•阿古斯的推出著作《疾病的終結》(The end of illness))。

那有沒有什麼辦法,來改善這種情況呢?

事實上,我們可從過往的歷史中,尋找一點點啟迪。

世界上,第一家歐洲咖啡館(Coffee House)是於1645年在威尼斯開辦的。咖啡館開辦的目的在於,提供一個交流的平臺,讓三教九流不同種類的人,能夠聚在一起,指點江山,侃侃大山,從而完成思想的碰撞,進而產生新的價值——比如,促成一場新的貿易等。在咖啡館裡,有一個特徵是值得特別注意的,大家聊完天,侃完大山,各回各家,各找各媽,誰也沒有損失!

試想一下,如果讓多家醫療研究機構的癌症診療資料,也能在“數字咖啡館”走一遭,碰一碰,或許也能碰撞出“新的火花”,加速癌症的研究。這裡的“資料咖啡館”是由英特爾公司主導開發了一項資料共享技術。針對癌症研究,資料咖啡館的核心理念就是,讓不同研究機構的癌症診斷資料,“可用但不可見”——在不破壞資料歸屬的基礎上,完成對可用資訊的提取,這真是個了不起的想法(注:案例介紹來自於英特爾中國研究院院長吳甘沙先生的講座)!

癌症如此的難以克服,那麼癌症從何而來呢?有什麼辦法可以預防?下一節,我們將討論這個議題。

2.癌症從哪裡來?

癌症是什麼?癌症是一組與基因突變有關的疾病,其特徵表現為,異常細胞生長不受控制,且肆意攻擊正常細胞組織。如果癌症細胞一旦失控擴散,就會導致癌症細胞的宿主(這裡通常指的是人)死亡。

所謂基因,是指攜帶有遺傳資訊的DNA序列片段,它是控制性狀的基本遺傳單位。由於DNA分子中發生鹼基對的增添、缺失或改變,從而引起基因結構的改變,稱之為基因突變。導致基因突變,進而引發癌症病發的因素有二,下面分別給予簡要介紹:

2.1外在因素

據美國最知名的癌症研究中心——MD安德森研究表明,所謂的外部環境泛指所有非遺傳因素,包括但不限於,不良的生活方式(如濫用菸草,酗酒)、缺乏體力活動、工作壓力大、環境汙染,主(被)動地接觸傳染性生物體、不良化學品和輻射等。這些外在因素佔癌症發病率比例的90%~95%!其中,最常見的外在因素導致癌症死亡比例中,濫用菸草佔25% ~ 30%,不良飲食和肥胖佔30% ~ 35%,單純僅此二項之和就佔據55%~65%,超過了癌症死亡的“半壁江山”。

很遺憾地說,這類癌症導致的“不可活”,多是源於病人自己的“自作孽”!

下面舉例說明之。圖4所示為菸草消費量與20年後肺癌發病率的滯後相關性。所謂“相關性”,是指兩個或兩個以上變數的取值之間存在某種規律性。這種相關性的滯後,是很容易理解的。因為今天抽支菸,並不會立馬就讓抽菸者的肺部有癌症病症。事實上,抽菸的危害作用是可以日積月累的,它的“功效”能潛伏20年之久!

55a4656071f8d

圖4 菸草消費類於肺癌發病率高度相關(圖片來源:wikipedia.org)

換句話說,20歲的你,年輕任性,“一枝梨花壓海棠”,瀟灑地抽了一口煙,就為人到中年、事業有成40歲左右的你,培養了一個可能突變的癌細胞。但正因為這個巨大的滯後時間間隔——20年,“麻痺”了很多人:抽支菸,解解乏,也沒有什麼大不了的。殊不知,這種菸草消耗量和肺癌發病率的巨大的相關性,不得不讓人們側目、反省、深思。

當然,也會有人會站在學術層面表態:“相關性”不代表“因果性!”

的確,從嚴格意義上講,統計學無法檢驗邏輯上的因果關係。根據統計結果,可以說“抽菸人群的肺癌發病率,會比不抽菸人群的發病率,高好幾倍”,但統計結果無法得出“抽菸致癌”的邏輯結論。

中國概率統計領域的奠基人、國際著名數理統計學家陳希孺院士,生前常用這個例子來說明統計學的特點(案例來源:李國傑院士《大資料研究的科學價值》)。

但話說回來,大資料佈道師維克托•邁爾-舍恩伯格在其著作《大資料時代》中提到的核心觀點:“要相關,不要因果”。也就是說,大資料關注事物間的相關性(correlation),而非緊盯事物之間的因果關係(causal relation)。

也許正是因為統計方法並不致力於追尋事物間的因果關係,才促使資料探勘和大資料技術在商業領域廣泛流行。利用大資料分析的企業,其目標就是多掙些錢,只要從大資料探勘中發現某種措施與增加企業利潤有較強的相關性,然後採取這種措施就好了。

既然大資料的“相關性”可以正向指導商業獲利,為什麼我們不能“反其道而用之”呢?

雖然,目前還不能充分證明抽菸人群與肺癌發病率的因果關係,但我們已然“鐵板釘釘”地證明了他們的相關性,為了活命,為何不能通過破壞他們的相關性——試一試不抽菸,結果會怎樣?

2008年,大名鼎鼎的MD安德森癌症研究中心,在《Pharmaceutical Research》發表文章表明:“癌症是可預防的,但它要求改變你大部分的不良生活習慣(Cancer is a Preventable Disease that Requires Major Lifestyle Changes)”。

生命只有一次,且行且珍惜!

2.2內在因素

致癌的內在因素,主要來自於遺傳突變、免疫病症、新陳代謝引發的突變等。研究表明,其實僅有5%~10%的癌症患者是源於基因缺陷。對於這類多數為先天性的癌症疾病治療方案,包括免疫治療、靶向治療,甚至是提前手術——切除病灶。

2013年2月16日,時年37歲的好萊塢當紅女影星安吉麗娜•朱莉(Angelina Jolie)在《紐約時報》撰文,自曝接受預防性雙乳切除術。之所以切乳,是因為通過檢查,她發現自己有基因缺陷,罹患乳癌的風險機率高達87%,而罹患卵巢癌的風險機率也達到50%。

安吉麗娜•朱莉從母親那遺傳了突變的癌症易感基因BRCA1。BRCA1是Breast Cancer Susceptibility Gene 1(乳腺癌易感基因型別1)的縮寫,這是一種抑癌基因。在抑癌基因的作用下,正常人體每天也會產生的少量癌細胞,但很快就會被抑制或被免疫系統識別而消滅掉,並不會形成腫瘤。如果BRCA1基因突變導致抑癌功能的丟失,乳腺癌、卵巢癌或一些其他腫瘤發病率就會明顯升高。

55a465acb8b4b

圖5  接受預防性雙乳切除術的安吉麗娜•朱莉(圖片來源:wikipedia.org)

安吉麗娜•朱莉的母親就是因為攜帶這種基因而導致卵巢癌,56歲時因病去世。朱莉不想重蹈覆轍,因此接受了預防性的手術,來降低癌症風險。2015年3月24日,她再次宣佈切除了卵巢和輸卵管。

注:中國留傳下來一句老話,“人的命,天註定”。批判者會說這是“宿命論”的迷信,高喊“王侯將相,寧有種乎!”但就癌症而言,真的是有5%~10%的人,似乎是“天註定”——先天攜帶基因缺陷,極易致癌!

有時候想想,也真夠弔詭的:“迷信”通常是站在“科學”的對立面的,但在某些情況下,我們卻用“科學”證明“迷信”是“科學”的!

3.大資料用之於癌症鬥爭,挑戰何在?

取得對癌症鬥爭勝利的關鍵,就要尋找到藥物的聖盃(Holy Grail)。在生死關頭,幾乎沒有人不動容,要麼怕自己死掉,要麼怕自己心愛的人死掉。因此,毫無疑問,如果大資料能以某種方式來幫助提升醫療水平,識別癌症潛在風險,並最終給出可靠的治療方案,這是件多麼“夕陽無限好”的事啊。

大資料用之於癌症鬥爭,一開始並不會那麼順風順水。其前途無量,但道路曲折。欲取得這場戰爭的勝利,還面臨很多挑戰,例如,癌症診療資料獲取難,資料決策執行難等,下面一一簡要描述之。

3.1 癌症診療的基礎大資料——獲取難

目前,在醫療領域,面臨的一個重大挑戰就是如何獲取有關癌症病人的大量診療資料。

美國臨床腫瘤學協會(American Society of Clinical Oncology,ASCO)執行長Allen Lichter曾指出,在超過96%的病例中,病人的詳細治療資訊“被鎖在醫療檔案和檔案櫃或者儲存於未聯網的電子系統中”。

“各自為政”的各個醫療機構,並非沒有意識到醫療資料流通的重要性。但由於涉及到病人的隱私問題、機構間的利益衝突以及純粹缺乏電子病歷,阻礙著醫療領域的資訊共享,讓每一次癌症治療,都像發生一個孤立事件。

令人惱火的是,很多醫療機構的診斷資料,要麼從一開始就是一堆紙質檔案,根本就沒有數字化,從而不能更大範圍的共享。要麼利用電子病歷數字化後,然隨後就束之高閣,形成資訊孤島。

各個醫療機構僅在可供自己訪問的小資料集合上施以分析,形成最終結論,這如同“盲人摸象”一樣,是片面的,甚至是錯誤的。如果醫療領域的資訊共享能取得進展,人們很有可能發現更具普遍意義的治療方案。

我們知道,大象不是盲人根據大象區域性位置的觸感,得出的 “大蘿蔔”、“大蒲扇”、“大柱子”或“細草繩”,大象就是大象。但要得出這個結論,就要睜開眼,看到大象的全景。

在癌症診療資料分析中,同樣也是如此。我們應看資料的全景,而不是僅僅根據事物的小樣本資料就下結論。只有這樣才能全面和真實的瞭解事物的情況 。這或許就是舍恩伯格在《大資料時代》中說的“要全體,不要樣本”吧。

前文我們提到,癌症是一類長尾病症,每一個研究機構的基因組樣本都相對有限。“小樣本”得出的研究結論,得出有關“癌症診斷”的結論,極有可能是“盲人摸象化”的。

英特爾公司提出的“資料咖啡館”,其核心理念把不同醫療機構的癌症診療資料匯聚到一起,形成大資料集合,但不同機構間的資料,“相逢但不相識”,“可用但不可見”。一旦“資料咖啡館”專案能成功實施,勢必在某種程度上加速癌症研究的技術突破。

3.2 資料化帶來的顛覆式醫療——執行難

在醫療領域,欲用大資料對抗癌症,其面臨的另外一個重大挑戰就是,如何讓醫療領域的從業人員發生重大的思維轉變——重視資料文化。

資料文化的本質,就是尊重客觀世界的事實,實事求是。重視資料就是強呼叫事實說話、按理性思維的科學精神。

而在醫療領域,似乎更看重的是“經驗”!

《顛覆醫療——大資料時代的個人健康革命》(The Creative Destruction of Medicine: How the Digital Revolution Will Create Better Health Care)一書的作者、美國著名心臟病學家、基因組學家——埃裡克•託普(Eric Topol)認為,醫學領域是目前所有領域中最為保守的,在數字化革命以來,似乎被完全孤立起來一樣。但在未來的幾年裡,醫學領域將不可避免的被“熊彼特化”——即被創造性破壞。

55a4661c79deb

圖6 破壞似創新理論的提出者——約瑟夫•熊彼特(Joseph Schumpeter)(圖片來源:wikipedia.org)

目前,資訊科技(特別是現在的大資料技術)就如同一個“鯰魚”,它遊進哪個領域,都會帶來“創造性破壞”。“創造性破壞理論”是著名美籍奧地利經濟學家約瑟夫•熊彼特(Joseph A. Schumpeter, 1883~1950年)最有名的觀點。在熊彼特看來,每一次大規模的創新,都淘汰舊的技術和生產體系,並建立起新的生產體系。

大資料給醫療領域帶來的“摧枯拉朽”、“吐故納新”,是醫療領域目前必須承受的“變革之痛”!

4.哪些機構在用大資料對抗癌症?

倘若沒有商業大公司和醫療行業的大力推動,大資料對抗癌症的戰爭,多半如同“水中撈月”、“霧裡看花”一樣不靠譜。然而,令人欣慰的是,諸如IBM、美國臨床腫瘤學協會和谷歌等巨頭公司和行業協會的重度參與,給大資料對抗癌症帶來了勝利的曙光。

4.1人工智慧驅動的癌症診斷大師——沃森

2011年,IBM超級機器人沃森(Watson),在美國著名電視智力競賽節目“危險邊緣(Jeopardy)”中,戰勝了兩位人類智力冠軍——最高獎金得主布拉德•魯特爾和連勝紀錄保持者肯•詹寧斯,並贏得100萬美元的獎金。

55a4678191aa7

圖7 電腦對壘人腦(圖片來源:FT中文網)

如今,“功成名就”的沃森已開始轉戰醫療領域。自2012年起,沃森開始在美國一家名為“紀念斯隆-凱特琳癌症中心(Memorial Sloan-Kettering Cancer Center)”開始實習。

沃森人工智慧(AI)系統,就像一名在醫學院接受嚴格訓練的預備役醫生那樣,每天“學而時習之”——它每天學習數以百萬計的臨床資料資料、期刊文章以及臨床試驗報告,然後通過“人工智慧”演算法,學習如何正確診斷疾病、並拿出可行的治療方案。目前沃森能幫助醫療專家做癌症等複雜診斷,以及指出醫療專家可能忽略的細微差別。

2015年5月,美國和加拿大的14家癌症研究機構宣佈,將使用IBM公司的沃森智慧資料分析引擎,其在海量癌症病例資料庫中,尋找和當前病例最為相匹配的癌症患者診療資訊,從而協助醫生給出最為有效的診斷方案,以及給出最有可能治療特定患者的抗癌藥物。

沃森(Watson)智慧系統,通過對自己體內龐大的診斷資料庫——病理和藥理分析,還可挖掘出新的關聯關係,智慧“推薦”從未在癌症治療使用過的藥物。

在沃森(Watson)智慧系統中,通過編寫資料探勘分析演算法,沃森可以模擬人體和成千上萬種藥物做病理和藥理實驗。細胞突變是造成癌症的主要因素,經過一番“深思熟慮”,根據自己的“博學”醫學經驗,沃森可以給出抑制突變細胞最有效的藥物。當然,在是否採納由人工智慧(AI)驅動下的沃森的建議上,醫生肯定會綜合考量多種因素,但是可以肯定的是,由於沃森的參與,它無疑會大大會加快醫生決策的過程。

4.2 醫學大資料的解讀先鋒——CancerLinQ

用大資料技術來化解癌症之痛,是一個很有前途的方向。朝這個方向努力的先行者是——非營利專業組織美國臨床腫瘤學協會(American Society of Clinical Oncology,ASCO)。2013年12月,ASCO開啟了一個利用大資料幫助癌症治療的專案——CancerLinQTM,該專案設計的目的在於,力圖收整合千上萬癌症患者的診療資料,用於指導對醫療系統內其他病人的治療。

癌症患者的主治醫師將能像用谷歌一樣,搜尋這個診療大資料庫——CancerLinQ。根據其他類似病例的治療情況,醫生可獲得診療策略方面的建議。

事實上,CancerLinQ本身還是一個“快速學習系統”,通過機器學習技術,可從海量醫療資料中發現有價值的模式,進而形成對癌症深度洞察,並加快發現新藥的速度。

ASCO腫瘤資訊委員會主席Gregory Masters教授說,我們已經進入精準醫學時代,隨著對腫瘤學深入瞭解,將會研製出新的靶向藥物,用來定向治療某種特定癌症。CancerLinQ在這其中,將發揮及為重要的先鋒作用。

4.3“熨平”混雜資料的夥計——FlatIron Health

大資料所需面臨的挑戰還在於,從我們身邊的大千世界中獲取的資料,十之七八是凌亂無章的,非結構化資料(注:事實上,這正是大資料的4個V特徵之一的Variety——多型性)。

儘管多年來,醫學管理機構一直在努力說服醫生和醫院採用電子病歷(Electronic Medical Record, EMR),但面向癌症的診療資料,依舊難於查詢和使用。每位癌症患者的資料可能會有幾十個來源:實習醫師、腫瘤科醫生、放射科醫生、外科醫生、化驗室和病理報告等等。

即使這些診療資訊已經數字化,也存在著IT技術人員所說的“格式散亂”問題。這些資料的來源很多,有來自病歷資料的、醫生筆記的、與護理人員互動交談資訊的,還有癌症患者的治療付費資訊。

不同診斷裝置的後臺資料庫沒有經過規整,展示方式因化驗報告和病歷的不同,而存在巨大差異,結果造成各種資料庫系統無法相容,再加上有關個人健康資訊的嚴格隱私規定,令共享數萬種腫瘤療法變得難上加難——資料融合成為醫療大資料的利用的“頭等大事”

值得慶幸的是,大資料技術的過人之處就在於,能就從混雜的、非結構化資料便捷地抽取有價值的資訊。

在2012年,納特•特納(Nat Turner)和扎克•溫伯格(Zach Weinberg)成立Flatiron Health,並構建了OncologyCloud(腫瘤學雲平臺),該專案旨在整合全世界的腫瘤資料。

以“不作惡不(Do not be evil)”為公司口號的谷歌,再次為Flatiron開啟支票薄,通過其風險資本部門谷歌風投公司(Google Ventures)給Flatiron注資超過1億美元,成為Flatiron的幕後老闆。

FlatIron Health公司認為,大多數的有臨床價值(癌症)資料,停留在醫生和護士的筆記,病理報告,PDF文件、CT掃描圖形和其他非結構化形式資料中。

此外,目前僅有一小部分癌症患者的治療資料得到了有系統地採集。這種採集基本上是在臨床試驗中隨意為之的,只覆蓋了大約4%的癌症患者,96%的癌症患者其實是不願意參與臨床試驗的。

傳統的人口健康分析報告,主要基於患者向保險公司提供的病情理賠資料,這的確可達到立竿見影地分析效果。但對於癌症——這個高度複雜的病種,則難以獲得對該疾病的深度理解。僅僅通過腫瘤病情的理賠資料來加以分析,從而來獲知對癌症的洞察,這無異於冰山一角,管中窺豹、“僅”見一斑!如果要想獲得“臨床真理”,你就必須深入腫瘤病情的細節。

FlatIron專案希望能從餘下的96%患者中,採集更多的資料,然後加以整理,實現標準化,然後將資料提供給醫生。Flatiron的厲害之處就在於,它可抓取醫患之間各個階段的互動資料。不管這些資料的多模態的,還是非結構化的,Flatiron都可以很好的利用這些資料,從而使之可以與其它數以百萬計患者資料,進行比較分析。

目前,還有些其它研究特定型別的癌症專家系統。例如,Dragon Master基金會就與五家美國兒科醫院合作,從罕見兒童腦腫瘤患者提取組織樣本,建立癌症樣本資料庫。

Dragon Master基金會認為,癌症完全是由細胞突變引起的,其主導的研究致力於,從我們的身體中複雜的遺傳資料——基因組(Genome)中探尋癌症致病的機理。

5. 癌症大資料的重要源頭——基因組資料

現在,很多知名癌症研究中心都會提供全方位的基因分析服務,尤其是針對晚期癌症患者。藉助於所有這些基因資料,醫生們可以重新對患者進行分類。人們再也無需像以前那樣,用‘癌症X期’描述一名癌症患者,而是可以用癌症分子的驅動水平,來精確地描述癌症病情。從這個基因層面上診療癌症,是2015年1月美國總統奧巴馬宣佈的精準醫療計劃(precision-medicine plan)背後的驅動力之一。

基因組資料是典型的大資料。例如,位於馬里蘭州的、由美國國家生物技術資訊中心(National Center for Biotechnology Information ,NCBI)維護的GenBank序列資料庫,收納了世界各地實驗室中測得的10多萬不同的生物序列。

值得注意的是,就在我們眼皮底下,存在著一項超越摩爾定律(Moore’s Law)的數字技術——DNA測序。DNA測序的應用越來越普遍,但是其成本的下降幅度已遠超出了摩爾定律的預計。

55a467f97b1e9

圖8  DNA結構 (圖片來源:編譯者繪製)

僅以GenBank來說明生物序列資料增長的趨勢。根據GenBank公佈的文獻資料顯示,自1982年創庫以來,其容量以指數級的速度增長,平均每18個月翻一番,而測序成本也隨時間大幅下降,其趨勢完全趕超IT領域的“摩爾定律”,如圖9所示。

55a46915620b3

圖 9  GenBank的容量每18個月翻一番(圖片來源:編譯者繪製)

目前,為了儲存由基因組測序儀輸出的原始程式碼——基因組資料,計算機系統需要儲存200GB資料(譯者注:博文作者Bernard Marr可能對生物資訊學瞭解不甚瞭解,或其語焉不詳。事實上,僅單條個人的全基因組資料大小就達到140GB,更何況要構建包含非常多的癌症患者的基因組資料庫。對此,欲瞭解更多資訊,讀者可參閱《Naure》上的一篇文章:生物學:大資料的大挑戰(Biology: The big challenges of big data

研究者們可利用這些基因組資料,實施全方位的比較分析,從不斷增長的基因組資料庫中,找出是哪些因素(如致癌基因)是觸發癌症的關鍵要素。

在前文提到的美國奧巴馬政府推出的精準醫療計劃中,就包括“百萬基因組計劃(Million Genomes Project)”,在該計劃中,預備測量一個百萬個人類基因組樣本,也就是說,其容量是100萬個140G。大資料的“大”,在容量上,已被它結結實實地坐實了!

然而,“大”並不是大資料的最難以克服的挑戰,這僅是個規模問題。有些專案,諸如Folding@home就通過提出主動式方案,來解決規模的問題。該方案可充分利用全球性的、分散式網路處理能力,大大加速了在該蛋白質資料的利用率和解碼效率。

注:Folding@home是一個研究研究蛋白質摺疊,誤折,聚合及由此引起的相關疾病的分散式計算工程。Folding@home的中文含義就是“在家摺疊”, “摺疊(Folding)”是蛋白質的最重要的性狀之一,如果蛋白質沒有正確地摺疊,人類會遭受某些病症的折磨。許多疾病,諸如阿茲海默症(Alzheimer’s),瘋牛病(Mad Cow/BSE),還有帕金森氏症(Parkinson’s)等,特別是一些癌症疾病等,正是由於一些細胞內的重要蛋白髮生突變,導致蛋白質聚沉或錯誤摺疊而造成的。

55a46983c799d

圖10  Folding@home客戶端,點選可下載(圖片來源:編譯者截圖)

Folding@home專案參與的志願者,可以通過下載一個客戶端,在家裡(@home)就可以利用自己電腦(甚至是安卓、蘋果手機)的閒置計算資源,來幫忙處理部分蛋白質資料的計算。一旦當前的客戶端關閉,客戶端就會自動把計算得到的臨時結果發回計算中心,再由計算中心找到另外一個適用的志願者客戶端,接力計算。2003年,Folding@home專案完成了它的第一個分散式計算專案。

Folding@home專案之所以能夠成功,究其本質,是因為“眾人拾柴火焰高”,它充分整合世界各地的志願者的閒置計算資源,來完成以往只能在大規模超級計算機上完成的專案。這是眾多大規模分散式計算專案之一,也是最出名、普及最廣的“網格計算”專案。而“網格計算”,在某種意義上,就是現在熱炒的“雲端計算”的媽媽)。

6.大資料對抗癌症,前景如何?

前面我們說道,大資料對抗癌症的戰爭中,已經吸引諸如IBM、谷歌和美國臨床腫瘤學協會的重度參與,前途看似一片光明。

然而,在癌症研究領域,也有部分領軍人物,對大資料的長期抗癌前景表示質疑。例如, MIT(麻省理工學院)癌症研究中心的著名學者羅伯特•溫伯格(Robert Weinberg),就在《細胞》雜誌(Cell)撰文,指出大資料和癌症之間存在不穩定的關係。他強調說,從腫瘤裡的蛋白質間的相互作用到基因突變,各方面多形式的資料膨脹,已經遠遠超過研究人員的解讀能力。

我們常說,前途是光明的,但道路是曲折的。在征服癌症的這條道路上,“路漫漫,其修遠兮”。在這條路上,有一份質疑,多一份冷靜,或許可以讓路走得更遠。

簡而言之,大資料領域的科學技術和癌症之間的戰爭,剛剛打響。這場戰爭勝利的號角,遠未到該吹響的時候,但戰鬥正在取得顯著地進展。就在今年,英國頂級學術諮詢機構UCL Consultant,就給出一項研究結論,到2050年,年齡在80歲以下人群,都不會死於癌症。

就如同大資料在其它跨界領域研究大放異彩一樣,我們有理由相信,由大資料驅動技術的有關癌症的研究,在獲取這場大資料對抗癌症的戰爭中,無疑將扮演舉足輕重的角色。

譯者介紹:張玉巨集,博士。2012年畢業於電子科技大學,現執教於河南工業大學。中國計算機協會(CCF)會員,ACM/IEEE會員。主要研究方向為高效能運算、生物資訊學,主編有《Java從入門到精通》一書。

部分原文來自:Forbes