雲端計算和大資料延伸至試管嬰兒生命資訊領域:生物雲端計算

jyivf000sdf01發表於2014-11-18

  隨著網際網路的普及和技術的發展,大資料和雲端計算已經滲透在人們的生活的各個方面,在金融,零售,能源,交通等領域已經得到廣泛應用。而對於生物資訊來說,生物的DNA,基因序列,生物晶片等無時無刻不產生新的資料;比如說,DNA測序每年能夠產生大約150億兆(PB級)的資料,如果將這些資料儲存在DVD中,那麼燒錄出來的DVD能夠達2.5英里高。生命科學的資料來源和形式多樣,包括基因測序、分子通道、不同的人群等。每個臨床試驗需要千上萬病患的數年統計資料,而DNA測序的每個樣本產生的資料則以兆兆位計算;如果能高效、高速地利用這些大資料,無疑將為生命科學領域帶來無限機遇,但如何分析利用也帶來了全新挑戰。生物雲端計算便能很好的解決這些問題;

  1)雲端儲存:利用世界上成百上千臺伺服器雲,透過分散式計算系統,取得廉價、便捷的服務;

  2)雲端計算與大資料分析:透過大資料處理軟體將複雜,繁瑣的資料透過視覺化,簡單化的方式呈現出分析結果。

  大資料,雲端計算,生物醫學——三個炙手可熱的關鍵字和在一起會是什麼效果?從應用角度出發,這個可以是SaaS,可以是PaaS;下面介紹一些國內外的生物雲端計算公司,從四個方面來重點介紹一下在雲出現的比較有影響的在雲端生物學大資料的應用。這四個方面分別是基因測序,臨床藥物研發管理以及健康管理

  1) DNAnexus

  DNAnexus 是一家致力於打造雲端 DNA 資料庫的創業公司,並把這些資料提供給研究人員和科學家。目的是將更多基因儲存至雲端,實現基因的便捷的訪問和對比分析。該專案同時還提供人類基因資料備份,基因檢索和配對等。透過檢索和配對,醫生可以從數千萬的基因資訊中找到對病人有效的藥物。目前 DNAnexus 的使用者已經包括史丹佛大學和哈佛大學等高校,製藥公司,某些醫生也會透過DNA 資訊來診斷病情。公司提供的服務初衷解決在實驗室經過測序儀大量資料的問題,人類基因測一次資料,原始資料在100個G到600個G之間,透過服務匯入到雲服務平臺,後來提供了非常靈活的多樣化的各類各樣的關於資料的測序分析和比對的工作流程,資料可以有效的管理起來,並且測序結果能夠很好的以使用者很好的形式展現出來。該公司獲得Google領投的1500萬美元的融資。2014年1月,Google基因組開啟了基因組雲端儲存服務,目前谷歌基因組儲存資料費用為100GB資料25美元一年,可滿足單個人的原始基因資訊儲存。且在經過谷歌特殊演算法的處理後,可壓縮至1GB,費用也將降至25美分。

  2)Seven Bridges Genomics

  SevenBridges Genomics是美國一家創業公司,主要提供基因排序研究和生物製藥產品服務,實現生物資訊的視覺化,資料分析等方面。Seven Bridges Genomics在人類基因組排序和分析中綜合應用了雲端計算和NoSQL資料的技術,比如EC2、S3和MongoDB。為了降低資料儲存成本,他們還採用了Glacier。Seven Bridges PaaS提供了一個設定資料通道的介面,這些通道可以基於預定義的模型,也可以根據當前任務進行調整。

  3)crossbow

  Crossbow是一款能夠用於完整基因組重新排序分析的工具。經過對多個類庫進行整合,它可以藉助AWS只花不到100美元的成本在3小時之內分析完一個人類基因組。對於有志於從事生物資訊的開發人員來說,這是一個非常好的工具。這是對全基因分析的流程軟體,它的意義在於原來開發之前,完成一個人健康分析的在單個伺服器,這軟體透過亞馬遜雲平臺上的Hodoop把時間縮小了。結果來看,它現在在32CPU核上任務壓縮3小時不到,整個成本不到100美元,這是眾多工作中的一部分。

  4)Explorys

  Explorys公司成立於2009年,是一家臨床醫療資料管理應用公司,是克利夫蘭診所派生的創新公司。公司利用大資料提高醫療水平和服務質量。公司透過最強大的醫療計算平臺把各個系統的資料聯絡在一起,提供完整的臨床整合、高危人群管理、醫療費計算解決方案以及業績計薪解決方案。該平臺擁有2050億臨床、財務、執行資料元,覆蓋3800萬名患者、300家醫院、215,000多名醫療服務提供者。18家大型綜合醫療系統正在使用可靠的Explorys雲端計算平臺確定疾病的型別、治療方案和治療效果。它是基於私有云的模式,向第三方機構提供服務,第三方機構可以把自己臨床資料、運維資料財務資料託管到這個平臺來,這個平臺提供最大的好處能實時提供資料分析,這個規模託管了1300萬人,大概4400億的內容,資料規模在60個TB左右,2013年達到70個TB,頂層技術在Hodoop上走的。

  5)Illumina

  Illumina公司是遺傳變異和生物學功能分析領域的優秀的產品、技術和服務供應商。Illumina銷售各種各樣的DNA相關產品,包括基因測序儀器、分析相關資料的軟體和服務。透過幫助客戶加快實現生物資訊的採集、分析和應用,來改善人類健康。當前,Illumina擁有基因組測序儀市場70%的份額。公司今年1月,Illumina釋出了新款高階基因測序儀,可以準確測出全基因組序列,而成本還不到1000美元。當前,基因組測序已經不再是一個簡單的研究工具,讀取人類全部DNA的費用已經降至足夠低,甚至可以用來解決一些醫療問題,並確定治療方案。

  6)癌症雲端儲存

  2014年9月24日,美國癌症研究中心在美國聯邦政府商務機會網站上發出公告,其於今年1月發起的癌症基因組雲端計算平臺試驗專案花落The Broad Institute,Institute for SystemsBiology和Seven Bridges Genomics, Inc.,三家分別獲得了700萬、650萬和580萬美元的資助。NCI啟動此專案時釋出的Broad Agency Announcement很好地闡述了一個大型科研機構或科研專案對雲端計算生物資訊系統在各個方面的要求,包括核心資料、架構、計算服務、分析能力、許可權管理、安全性、可擴充套件、資料標準等等,並提出瞭如何從這些角度評價一個雲端計算生物資訊系統的基本考慮。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/30026798/viewspace-1337780/,如需轉載,請註明出處,否則將追究法律責任。

相關文章