導讀:2016年1月在瑞士達沃斯召開的世界經濟論壇上的一個panel討論中,美國副總統Joe Biden當場要求臨床醫生和研究者舉例表示人類在抗擊癌症中突破的障礙。當幾個重要話題浮現時,最重要的議題是“大資料”,具體而言,即“大資料”的收集、分析和應用。

3d abstract tunnel

大量的腫瘤DNA測序通道接近20,000基因組

研究者表示:“大資料”是有效的,這是因為有重大的資訊可以從大資料集合裡分析。越是大樣本的體量,越能發現一些在小樣本體量中難以發現的小問題。另一些研究者則表示:“大資料”豈止於大?而是越多越好。

來自美國 St. Jude兒童研究中心的資訊長、高階副總裁Keith Perry認為,“大資料”包含額外的三層意思:多個品種的資料型別、資料生成的速度和資料整合的程度。在他看來,目前的許多資料庫之間無相互介面,因為它們是由單獨的預防、研究和臨床部門產生的,現在缺乏一個整合這些不同結構、集中資訊的潛在平臺。

另一位來自愛立信公司的Narayan Desai博士引用了其在2015年的新聞文章,基因組學將不得不解決的基本問題是資料是如何生成的。儘管目前的資料收集和分析能力有限,但應該利用好它,因為測序的可訪問性,將導致訪問資訊出現爆炸性的增長,並在很大程度上較為分散,傳統的資訊挖掘將難以解決問題。

影響一:隱藏的弱點

最近,一些科學家建議:針對性和創造性的利用現有的資料可以指導臨床實踐。來自加州大學舊金山分校(UCSF)的Nevann Krogan教授表示:基因組學已經為癌症治療帶來了重大變革,其作用遠超過以往的遺傳學知識。儘管測序提供商認為我們投入的金錢越多,結果越清晰,事實上並不是如此。我們現在已經達到了提取有效資訊的飽和點。

以癌症為例,目前針對各種各樣的癌症已經出現了“海量”的資料。儘管資料暴增趨勢在繼續,但是Krogan 教授認為,突破癌症治療所需的資料已經達標。成堆的新資料只能顯示癌症驚人的多樣性,即使是一個單一的腫瘤也包含獨特的成千上萬的基因突變,這使得使研究人員找出哪些是驅動疾病的基因愈加困難。

Krogan教授和同事於2015年5月21日在《Molecular Cell》上發表文章:除了積累更多的資料之外,研究者需要更加仔細地找出現有資料的關聯,併成立了“腫瘤細胞地圖專案”(CCMI),旨在系統地介紹癌症基因間的相互作用,以及它們如何導致了疾病與健康的狀態,從而研究出癌細胞裡的突變基因和蛋白的“路線圖”。

影響二:腫瘤樣本關聯性分析

“腫瘤細胞地圖專案”(CCMI)將加州大學聖迭戈分校(UCSD)的頂尖生物醫學科學家和加州大學舊金山分校(UCSF)頂尖的細胞結構學家整合到一起,共同研究基因組學相關資訊,瓶頸是如何解釋腫瘤基因組資訊。

加州大學聖地亞哥分校的Ideker教授表示:進行癌症DNA測序的樣本已經接近20000例基因組,但仍然難以分析癌症基因組的基因網路,即“沒有兩個腫瘤患者在基因層面上看起來很相像。”因此,癌症基因組圖譜(TCGA)專案,國際癌症基因組協會(ICGC)已經開始系統地分析成千上萬的腫瘤的多重資訊,包括mRNA和microRNA表達、DNA拷貝數和甲基化以及DNA序列。

現在強烈需要有一個可以整合和解釋基因組規模分子資訊的方法,以洞察驅動腫瘤惡化的過程;同時也迫切需要醫療機構的參與,以解決公司在分析腫瘤基因時因無法獲得臨床相關的資料而得出不當結論。

影響三:子網路分析

解決子網路分析需要綜合資訊方法,尤其是綜合已知編碼蛋白質的基因在表達蛋白質內部子網或通路作用間的資料庫互動。這需要基因或蛋白質在各個子網路內形成的聚合表示式組成的巨大互動網路,而不是清單單個基因或蛋白質。

研究人員表示:這些子網可以識別不同種群患者之間的基因表達差異導致的不同臨床行為。與傳統的分析相比,雖然這種方法需要大量的生物資訊學、統計學和蛋白結構知識,但這種子網分析能夠解釋基因表達差異下的分子通路,畢竟它使用的資料已經存在。

Ideker博士和他的同伴生物資訊學專家表示:對於大多數中度乳腺癌風險的患者,傳統因素不是預測,大約70 – 80%的淋巴癌陰性患者在接受不必要的輔助化療。當前的許多風險因素可能是次要表現而不是疾病的主要機制。一個新的挑戰是如何確定新的與疾病更加直接相關的疾病,可以更準確地預測個體患者的風險轉移。

影響四:預後的影響

研究人員最新調查證據支援基因網路分析可以提供預後資訊。例如,加州大學聖迭戈分校(UCSD)的Chang博士和同事們在2012年的《血液》雜誌發文:通過單克隆B細胞在血液中、骨髓、次級淋巴組織的集聚,採用基因網路分析並預測慢性淋巴細胞白血病(CLL)患者的特點。

具體地說,研究人員使用subnetwork-based(子網路)基因表達分析概要檔案區分組不同患者的慢性淋巴細胞白血病進展風險。 臨床患者的慢性淋巴細胞白血病患者有很大的差異:有些病人無症狀多年;有些患者則在被診斷後不久就出現較為嚴重的症狀。

由於目前必須明確證據顯示疾病進展或疾病相關的併發症,否則建議停止治療,但標準療法與顯著的毒性有關,因此準確預測是至關重要的。目前已經有通過基因晶片檢測的報告顯示,替代標記物可作為慢性淋巴細胞白血病已知的預後因素,如IGHV突變狀態。

預測子網的表達水平隨著時間的推移而發生變化,但是在在之後的時間點表現出較強的相似性。大資料探勘已經成為慢性淋巴細胞白血病患者等癌症的的治療策略和潛在的觀察途徑。