基於高效能運算叢集這樣的新一代測序器和快速演化分析平臺,基因研究領域已經被海量資料淹沒。眾多基因、癌症、醫學研究機構和製藥公司不斷產生的海量資料,已不再能被及時的處理並恰當的儲存,甚至通過常規通訊線路進行傳輸都變得困難。而通常情況下,這些資料必須能被快速儲存、分析、共享和歸檔,以適應基因研究的需要。於是他們不得不訴諸於磁碟驅動器及運輸公司,來轉移原始資料到國外的計算中心,這為快速訪問和分析資料帶來了巨大障礙。與規模和速度同等重要的是,所有基因組資訊都能基於資料模型和類別被連結,並以機器或人類語言進行標註,這樣智慧化的資料就能被分解成方程式,在處理基因、臨床和環境資料時應用於普通分析平臺。

概述

機遇與挑戰並存的基因組醫學革命

自人類啟動基因組計劃以來,各項工程已逐步開始揭示人類基因組與疾病間關聯的奧祕。隨著測序技術的不斷進步,僅用1000美元即可識別出基因組。

1460217476-2797-8c89a5f7ad31186eb5bf01

圖1 基因組醫學技術進步的十年

人類基因組計劃是首個用來確定人類基因組序列的科研專案。該專案歷時13年,耗費近30億美元,於2003年完成,是目前為止最大的生物學合作專案。從那時起,一系列的技術進步在DNA測序和大規模基因組資料分析中展露頭腳,對單個人類全基因組進行測序的時間和成本隨之急劇下降,下降速度甚至超過了摩爾定律。

1460217476-8162-8c89a5f7ad31186eb5d202

圖2 DNA測序成本的快速下降

(自2001年以來,美國國家人類基因組研究所(NHGRI)對由美國國立衛生研究院(NIH)資助的測序中心所進行的所有DNA測序工作進行了跟蹤,並統計了相關費用,這些資訊已作為DNA測序的重要改進評估基準。圖中展現出近年來DNA測序技術和資料產生流程的顯著改善。來源:NHGRI,http://www.genome.gov/sequencingcosts/)

作為測序技術進步的一個例子,Illumina公司在2014年釋出了新一代測序器HiSeq X10,它以每個基因組僅1000美元的成本,一年可解密18000個人類全基因組。這個所謂的“千元基因組技術”使人類全基因組測序比以往任何時候更廉價可行,並有望對醫療保健和生命科學行業產生巨大影響。

新技術和研究方法的成功同樣帶來了相當大的成本,海量資料成為亟待解決的難題:

基因組資料在過去的8年中,每5個月翻一番。

基因編碼專案為80%的基因組賦予了明確的含義,所以獲取全基因組序列變得尤為重要。

癌症基因組研究揭示了一組不同的癌細胞基因變體,通過全基因組測序的跟蹤和監控,每次分析都會產生約1TB的資料。

已有越來越多的國家啟動了基因組測序專案,如美國、英國、中國和卡達。這些專案動輒就會產生數以百PB級的測序資料。

對端到端架構的要求

為了滿足基因醫藥研究對於速度、規模和智慧化的苛刻要求,需要端到端參考架構涵蓋基因計算的關鍵功能,如資料管理(資料集線器),負載編排(負載編排器)和企業接入(應用中心)等。為了確定參考架構(能力與功能)和對映解決方案(硬體與軟體)的內容和優先順序,需要遵循以下三個主要原則:

軟體定義:即基於軟體的抽象層進行計算、儲存和雲服務,以此定義基礎架構和部署模式,以便在未來通過資料量和計算負載的積累進行基因組基礎設施的增長和擴充套件。

資料中心:以資料管理功能面向基因組研究、成像和臨床資料的爆炸式增長。

應用就緒:整合多種應用到一致的環境,提供資料管理、版本控制、負載管理、工作流編排,以及通過訪問執行和監控等多種功能。

1460217476-7177-8c89a5f7ad31186eb5e603

圖3 基因組研究參考架構示例

圖中藍色表示基因組研究平臺、綠色表示轉化平臺、紫色表示個性化醫療平臺。這三個平臺共享企業級功能:負責資料管理的集線器、負載負載管理的編排器和負責訪問管理的應用中心。

架構部署總體規劃

架構需要以各種基礎設施和資訊科技進行部署。如下是一些部署模型,以及被對映到資料集線器、負載編排器和應用中心的技術、解決方案與產品示例。

1460217476-2790-8c89a5f7ad31186eb5f504

圖4 參考架構部署模型

如圖中所示,儲存基礎技術(固態硬碟、快閃記憶體、普通硬碟、雲),計算(高效能運算、大資料、Spark、OpenStack、Docker)和使用者訪問的資訊科技(應用工作流、檔案協議、資料庫查詢、視覺化、監控)由三個企業功能資料集線器、負載編排器和應用中心統一管理。

許多解決方案和產品可應用於該模型中成為可部署平臺,用於基因組研究、資料轉化和個性化醫療,如開源解決方案Galaxy,IBM頻譜系解決方案GPFS™等。

以參考架構為藍本增長

對端到端參考架構的另一項需求,是通過整合能被對映到不同需求的各種新舊構建塊,使平臺和基礎設施有機增長,這些構建塊可以是不同的型別、模式、大小和系統架構,如獨立伺服器、雲虛擬機器、高效能運算叢集、低延遲網路、擴充套件型儲存系統、大資料叢集、磁帶歸檔或後設資料管理系統等等。對於可融入架構的構建塊,需遵循行業標準化資料格式,通用軟體框架和硬體協同操作性三項標準,這樣實施和擴充套件基因組基礎設施可以多種靈活的方式進行:

小規模起步:由於是基於軟體定義,如果關鍵能力和功能到位,為符合有限的預算,系統、平臺和基礎設施可以相當小。例如,臨床測序實驗室可部署一個僅由1至2個伺服器組成的小型系統,並提供少量磁碟儲存和關鍵軟體進行管理。

快速增長:由於計算和儲存的增長,已有的基礎設施可在不中斷操作的情況下迅速擴充套件到很大規模。如2013年底,錫德拉灣醫療研究中心建立了屬於它們自己的基因組研究基礎設施,隨後通過參考架構新增了一個新的構建塊(60個節點的高效能運算叢集),最終於2014年中期將儲存基礎設施增加了三倍。這一健壯的能力使得錫德拉灣成為阿拉伯卡達基因專案的基礎設施供應者。

跨地域分佈:這是高效能運算領域近期出現的新功能,即資料的共享和聯合特性:資料和計算資源被部署在不同的位置,與此同時仍可供使用者、應用和工作流訪問。在參考架構中,資料集線器和負載編排器與此緊密相關。

很多全球領先的醫療保健和生命科學機構都在積極探索這樣的架構,以支援他們的綜合研究計算基礎設施。下面的章節,將闡述此類參考架構的關鍵部件、各種最佳實踐及專案經驗。

資料集線器

資料管理是基因組研究平臺最根本的能力,因為海量的資料需要在正確的時間和地點以恰當的成本進行處理。時間方面,可以是在高效能運算系統中進行數小時的資料分析,如果資料需要從儲存歸檔中調出進行再分析,可能需要數年的時間。空間方面,可以在當地的基礎設施間實施近線儲存,或是雲端遠端物理儲存。

資料管理的挑戰

大資料的四個V恰恰是基因組資料管理的挑戰:非常大的資料流和容量(資料量Volume),苛刻的I/O速度和吞吐量要求(資料存取速度Velocity),快速進化的資料型別和分析方法(資料多樣性Variety),以及共享能力和探索大量資料的環境和可靠性(資料置信度Veracity)。此外,還有法規(患者資料隱私與保護),種源管理(全版本控制與審計跟蹤)和工作流編排等額外的需求,使資料管理難上加難。

資料量

基因組資料因測序成本的急劇下降不斷湧現,對於配備了新一代測序技術的學術醫學研究中心AMRC,資料儲存容量每6至12個月翻一番已變得司空見慣。AMRC作為紐約的尖端研究機構,於2013年以300TB的資料儲存能力起步,截至2013年底,儲存量激增超過1PB(1000TB),超12個月前儲存總量三倍。更令人吃驚的是,這一增長仍在加速並一直延續至今。對一些世界領先的基因組醫藥專案,如英格蘭基因組(英國)、沙烏地阿拉伯基因組(卡達)、百萬精英專案(美國)以及中國國家基因庫等,資料量的起點或基準都不再以千兆位元組(TB)計,而是成百上千拍位元組(PB)。

資料存取速度

基因組平臺對資料存取速度的需求非常苛刻,原因有三點:

檔案非常大:在基因研究中,檔案通常用來存放研究物件的基因組資訊,它可以是單個患者的,亦或是一組患者的。主要有兩種型別:二進位制佇列或圖即BAM(由基因組序列比對產生)和變型呼叫檔案即VCF(處理後得到的基因變型),此類檔案往往大於1TB,可佔用典型基因組資料倉儲儲存總量的一半。此外,通過擴大研究範圍,使用更高的覆蓋解析度,可得出更多的基因組資訊(如30至100倍全基因組),這會使儲存檔案迅速增大。由於基因組研究通常從對罕見變異的研究(單個病人變異提取)演變為常見變異研究,於是出現了一種新的需求:共享成千上萬患者的提取樣本。以布羅德研究所提供的一個假設為例:對於57000個共享提取的樣品,BAM輸入檔案有1.4PB,而VCF輸出檔案有2.35TB,兩者以現有水準衡量都是海量資料,但可能在不久的將來變得很普遍。

小檔案很多:此類檔案用於儲存原始或臨時的基因組資訊,如測序器輸出(像Illumina公司的BCL格式檔案)。它們通常小於64KB,可佔典型基因組資料倉儲檔案數量一半以上。與處理大檔案不同,因為每個檔案的I/O都需要對資料和後設資料進行兩次操作,生成和訪問大量檔案的負載會非常大,如果按每秒運算元(IOPS)衡量速度,底層儲存系統的IOPS可達數百萬次。由此可以想到,對於AMRC在聖地亞哥的基礎設施,未曾對小檔案處理的儲存做過任何優化,諸如BCL轉換(像Illumina公司的CASAVA演算法)這樣的負載會因基礎設施有限的I/O能力(尤其是IOPS),導致計算資源枯竭而最終癱瘓。基準測試證實,因計算能力浪費在等待資料就位上,CPU效率會下降至個位數。為了緩解這種計算瓶頸,需要使用資料快取技術將I/O操作從磁碟轉移到記憶體。

並行和工作流操作:為提高效能、加快時間,基因組計算通常以編排好的工作流批量進行。從小範圍目標測序到大範圍全基因組測序,為使負載在快速運轉中發揮更高效能,並行操作不可或缺。隨著成百上千種不同的負載在平行計算環境中同時執行,以I/O頻寬和IOPS衡量的儲存速度將不斷累積並爆發式增長。紐約AMRC的生物資訊學應用可併發執行在2500個計算核心,以每秒寫一個檔案的速度建立百萬級資料物件,無論是2500個目錄、每個目錄2500個檔案,亦或是一個目錄中的1400萬個檔案都能被及時處理。而對於一個擁有6億物件、900萬目錄、每個目錄僅含一個檔案的資料倉儲,這僅僅是其眾多負載中的一小部分。由於後設資料是海量的,IOPS負荷會約束整體效能,即使一個列出檔案的系統命令(如Linux的ls)也不得不耗費幾分鐘的時間才能完成,並行應用程式如GATK佇列也遭遇了這種低效能。2014年初,檔案系統以改善後設資料基礎結構為著眼點進行了大幅修正,頻寬和IOPS效能均得到顯著改善,基準測試顯示,在沒有任何應用程式調整的情況下,基因疾病應用程式的計算加速了10倍。

資料多樣性

按儲存和訪問方式,資料格式可有多種型別,如多步工作流生成的中間檔案,亦或是一些輸出檔案,其中包含維持生命必需的基因組資訊參考資料,而這些資料需要謹慎的進行版本控制。目前常規的方法是,不考慮費用,在一個儲存層把所有資料線上或近線儲存,這樣做會導致大資料生命週期管理能力的缺失。如果基因組資料倉儲要用很長時間掃描檔案系統,遷移或備份就不可能及時被完成。一家美國大型基因組中心,在採用了Illumina公司的X10全基因組測序演算法後,一直掙扎於如何管理快速增長的資料。目前他們完成整個檔案系統的掃描需要四天,使得每日或更長一點時間的備份變得不可能。其結果是,資料在單層儲存快速堆積,後設資料掃描效能不斷下降,導致資料管理惡性迴圈。

另一個新的挑戰是資料位置的管理。由於機構間的合作變得越來越普遍,大量的資料需要共享或聯合,這使得地理位置成為資料不可缺少的一個特徵。同樣的資料集,特別是參照資料或輸出資料,可以在不同地理位置存在多個拷貝,或者因法規要求在同一位置存在多個拷貝(如因臨床測序平臺與研究機構物理隔離產生的多重資料副本)。在這種情況下,有效的管理後設資料以減少資料移動或複製,不僅能降低額外儲存所需成本,還能減少版本同步帶來的問題。

資料置信度

許多複雜的身心機能失調,如糖尿病、肥胖、心臟病、阿爾茨海默氏症和自閉症譜系障礙等,要研究它們的多因素特性,需要在廣泛的來源中實施縝密複雜的計算,統計分析大流量資料(基因組、蛋白質組、成像)和觀察點(臨床、症狀、環境、現實證據)。全球資料共享和網路聯合保證了訪問和分析資料的程式以前所未有的規模和維度不斷創新和智慧化,資料庫和檔案倉庫的進化也由此相互關聯在一起。在這樣的前提下,資料置信度作為一個不可或缺的元素在研究中得以被考量。例如,臨床資料(基因組和成像)需要被恰當和完整的標識以保護研究課題的機密性。基因組資料需要端到端的溯源以提供完整的審計跟蹤和可重複能力。資料的著作權和所有權需要由一個多使用者協作機構恰當申明。藉助內建特性處理資料準確性,基因組計算機構可以讓研究人員和資料科學家根據上下文和置信度分享和探討大量資料。

資料集線器的功能

為了解決基因組資料管理中遇到的問題,構建一個可伸縮、可擴充套件層提供資料和後設資料給負載,這樣的企業級功能可被命名為資料集線器。它可以儲存、移動、共享和索引海量基因組的原始和處理後資料。它還管理著從固態硬碟或快閃記憶體到磁碟、磁帶、以及雲的底層異構儲存結構。

1460217476-9939-8c89a5f7ad31186eb60905

圖5 資料集線器概述

作為提供資料和後設資料給所有負載的企業級功能,它定義了一個可伸縮、可擴充套件層把所有的儲存資源虛擬化、全球化到一個全域性名稱空間,旨在提供四個主要功能:

高效能的資料輸入與輸出(I/O)

策略驅動的資訊生命週期管理(ILM)

通過快取和必要的複製高效分享資料

大型後設資料管理

對於物理部署,它支援越來越多的儲存技術作為模組化構建塊,例如:

固態硬碟和快閃記憶體儲存系統

高效能快速儲存磁碟

大容量慢速磁碟(每驅動器4TB)

高密度低成本磁帶庫

可本地或全域性分佈的外部儲存快取

基於Hadoop的大資料儲存

基於雲的外部儲存

四個功能可分別對映到資料集線器:

I/O管理:針對大型和可擴充套件I/O,有兩個方面的能力。一是服務像BAM這種大檔案的I/O頻寬,二是服務像BCL和FASTQ這種大量小檔案的IOPS。由於這些不同的需求,傳統的額定量架構很難勝任效能和規模需求。資料集線器I/O管理通過引入池的概念,將小檔案後設資料的I/O操作與大檔案的操作分離,解決了這一問題。這些儲存池,在對映到不同底層硬體,提供最佳儲存效能的同時,仍能在檔案系統級達到統一,對所有資料和後設資料提供唯一的全域性名稱空間,並對使用者透明。

生命週期管理:對資料被建立、刪除和儲存的整個生命週期進行全線管理。如果以溫度作比喻來描述資料需要被捕獲、處理、遷移和歸檔的階段和及時性。使用像高通量測序儀這樣的工具捕獲而來的原始資料溫度最高,並需要有健壯I/O效能的高效能運算叢集(所謂的原始儲存)來處理。初步處理後,原始和處理後資料變得暖起來,因為它會採取一個基於策略的過程,以確定最終操作,如刪除、保留在一個長期儲存池或存檔等。這個過程會在帳戶檔案中記錄檔案型別、大小、使用情況(如使用者最後訪問的時間)和系統使用資訊。任何符合操作需求的檔案要麼被刪除,要麼從一個儲存池遷移到另一個,比如一個更大容量、但低效率且廉價的儲存池。這種目標層可以是一個磁帶庫,通過配備儲存池和諸如磁帶這樣的低成本介質,可高效利用底層儲存硬體並顯著降低成本。

共享管理:針對儲存設施邏輯域內部和之間資料共享的需求。隨著基因組樣品和參考資料集變得更大(某些情況下每負載工作量可超1PB),為了共享和協作,移動和複製資料變得越發困難。為最小化資料複製對資料共享造成的影響,資料集線器在共享管理下需要具備三個特點,從而使資料共享和移動可發生在私有高效能網路或廣域網,並高度依賴安全和容錯性。

多叢集儲存:即計算叢集可直接訪問遠端系統並按需要存取資料。

雲資料快取:即特定資料倉儲(主機)的後設資料索引和全資料集,可被有選擇的非同步快取到遠端(客戶端)系統,以實現本地快速訪問。

聯合資料庫:可使分散式資料庫間安全聯合。

後設資料管理:此功能為前面三點提供了基礎。儲存、管理和分析數十億資料物件對任何資料倉儲而言都是必須具備的能力,尤其是擴充套件超出PB級的資料倉儲,而這正成為基因組基礎設施的發展趨勢。後設資料包括系統後設資料,如檔名、路徑、大小、池名稱、建立時間、修改或訪問時間等,也涵蓋以鍵值對形式存在的自定義後設資料,這樣被應用程式、工作流或使用者所使用的檔案可與之建立關聯,從而用於實現以下目標。

基於大小、型別或使用情況放置和移動檔案以方便I/O管理。

基於對後設資料的閃電掃描收集資訊,啟用基於策略的資料生命週期管理。

啟用資料快取,使後設資料可輕量分佈並弱依賴於網路。

資料集線器解決方案和應用案例

頻譜規模的特性是高效能、可伸縮和可擴充套件,它專為高效能平行計算優化而研發,在計算系統的所有並聯計算節點之間,頻譜規模可服務於高頻寬大資料。鑑於基因組工作流可由數百個應用程式組成,同時這些應用參與著大量檔案的並行資料處理,這種能力對計算基因工作流提供資料而言至關重要。

因為基因組工作流可產生大量後設資料和資料,以高IOPS固態硬碟和快閃記憶體構建系統池的檔案系統,可專注於把後設資料儲存為檔案和目錄,在某些情況下也可直接儲存為小檔案。這大大提高了檔案系統的效能和大負荷後設資料操作的響應能力,如列出目錄中的所有檔案。

對於可進行大資料平行計算的檔案系統,資料集線器可在同一計算節點服務於大資料平行計算和大資料作業,從而省去了Hadoop分散式檔案系統(HDFS)的複雜需求。

基於策略的資料生命週期管理能力允許資料集線器把資料從一個儲存池移動到另一個,最大化I/O效能和儲存效率,並有效減少運營成本。這些儲存池的範圍可涵蓋高I/O快閃記憶體盤、大容量儲存基礎設施,以及繼承了磁帶管理解決方案的低成本磁帶介質。

基因組研究基礎設施的日益分散性也要求更大甚至全球規模上的資料管理。資料不僅需要在不同的地點移動或共享,還需與負載和工作流相協調。為實現這一目標,資料集線器依賴頻譜規模活動檔案管理(AFM)進行共享。AFM可擴充套件全域性名稱空間到多個站點,允許共享後設資料目錄或對映遠端客戶端家目錄到本地作為快取副本。如基因組研究中心可擁有、運營和版本控制所有的參考資料庫或資料集,而附屬、合作網站或中心可通過這種共享功能訪問參考資料集。當資料庫的核心副本得到更新,其他站點的快取副本也會迅速更新。

有了資料集線器,全系統後設資料引擎還可用來索引和搜尋所有的基因組和臨床資料,以挖掘出強大的下游分析和轉化研究能力。

負載編排器

本節介紹基因組負載編排所面臨的挑戰,並利用編排工具幫助減少負載管理工作。

基因組負載管理的挑戰

基因組負載管理是非常複雜的。隨著基因組應用程式越來越多,它們的成熟度和程式設計模型也不斷分化:許多是單執行緒(如R)或易並行(如BWA)的,也有的是多執行緒或啟用了MPI的(如MPI BLAST)。但相同的是,所有應用程式都需要在高吞吐量、高效能模式下工作,以產生最終結果。

編排功能

通過編排工具,可以編排資源、負載和工作流。負載管理器和工作流引擎,可以連結和協調一系列頻譜級計算和分析作業到易構建、可自定義、可共享、可通用平臺執行的全自動工作流,為具有GPU高效能運算叢集或雲端大資料叢集的底層基礎設施提供必要的應用抽象。

1460217476-6487-8c89a5f7ad31186eb61e06

圖6 負載編排器概述

編排器是企業級功能,可用來編排資源、負載和管理追溯,被設計為以下四個主要功能:

資源管理:按需求動態、彈性的分配計算資源。

負載管理:通過分配作業到本地或遠端叢集等不同計算資源,有效進行負載管理。

工作流管理:通過邏輯和自動化流程把應用程式聯絡在一起。

溯源管理:關聯後設資料記錄和儲存負載和工作流。

基於工作流邏輯和應用需求(如架構、CPU、記憶體、I/O),通過對映和分配負載到有彈性的異構資源(如HPC、Hadoop、Spark、OpenStack/Docker、Cloud),編排器在不同的計算基礎設施和高速增長的基因組計算陣列間定義出抽象層。

資源管理器

該功能以策略驅動的方式分配計算資源,以滿足基因組負載的計算需求。最常用的資源是高效能運算裸機叢集(HPC)。該資源管理器提供一次性資源,或可動態轉換和分配的資源。如果說資料集線器I/O管理提供了儲存服務層,那麼可以認為資源管理器提供了計算服務。此外,新型的基礎設施可被新增到資源池,包括大資料Hadoop叢集、Spark叢集、OpenStack虛擬機器叢集和Docker叢集。

基於負載資訊管理轉換資源是對資源管理器的基本需求。例如,對於被批量比對作業和Spark機器學習作業共用的基因組基礎設施,在執行時負載會產生波動,資源管理器能通過感知利用率轉移資源,以計算槽或容器的形式支援各作業的執行。

負載管理器

基因組計算資源需要在資源管理器的控制下有效共享、使用並提供最佳效能給基因組應用程式。負載管理器能處理要求苛刻的、分散式的關鍵任務應用程式,如Illumina公司的ISSAC,CASAVA,bcltofastq,BWA,Samtools,SOAP(短寡核苷酸分析軟體包)以及GATK。負載管理器還需要高度可擴充套件和可靠性以管理批量提交的大型作業,這是中大型基因組計算機構的通用需求。例如紐約一家醫學院的基因組計算叢集通常需要處理含25萬個作業的排隊系統,其間不能崩潰或當機。世界上一些大型的基因組中心,負載管理器佇列有時會存在上百萬個作業。對於成熟度不同、架構需求(如CPU,GPU,大記憶體,MPI等)也不同、且日益增加的基因組研究應用程式,負載管理器提供了必要的資源抽象使作業可在提交、放置、監控和記錄時保持對使用者透明。

工作流引擎

針對基因組的工作流程管理,工作流引擎致力於把作業連線為一個邏輯網路。該網路可按多個步驟讓計算流線性開展,比如序列對齊、組合、然後變形提取,也可以基於使用者定義的標準和完成條件以更加複雜的分支來執行。

編排器工作流引擎需要動態、快速的複雜工作流處理能力。獨立的負載和作業可通過使用者介面,結合變數、引數和資料被定義到標準工作流模板。有許多負載型別可被整合到工作流引擎,如並行高效能運算應用程式,大資料應用程式,或者分析負載的R指令碼。在被定義和驗證後,使用者可使用該模板從他們的工作站直接啟動工作流,或者釋出至企業站點為他人所用。

工作流編排引擎還需提供以下功能:

作業陣列:最大限度提高基因組測序分析工作流的吞吐量,特殊型別的負載可按作業陣列劃分為多個並行作業來處理。

子流程:可定義多個子流程,用來在基因組比對後並行進行變型分析,每個子流程的結果可合併為單一輸出供分析師以多種工具進行比對。

可重用的模組:工作流也可被設計為一個模組,作為動態構建塊嵌入更大的工作流。這樣不僅能有效構建和重用工作流,也能幫助大型科研機構使用者更好的協同共享基因組工作流。

1460217478-2220-8c89a5f7ad31186eb63407

圖7 用編排器整合的基因組工作流

圖中從左至右依次有以下部件:

框1:資料(如BCL檔案)到達後自動觸發CASAVA作為工作流第一步。

框2:動態子流使用BWA比對序列。

框3:Samtool以作業陣列的執行方式進行後處理。

框4:不同的變型分析子流並行被觸發。

基因組工作流結合一些應用程式和工具,把原始序列資料(BCL)處理為變型(VCF)資料。每個框表示一個工作流功能模組,它由對映到功能的基因組應用程式組成,如基因組鹼基轉換、序列比對、前處理、以及變型提取和分析。這些模組自身可作為獨立工作流被整合,並按照邏輯和條件關係被連線到一個更大的工作流中。

隨著越來越多的機構以分散式資源部署混合雲解決方案,編排器可基於資料位置預定義策略、臨界值和資源有效性實時輸入來均衡負載。如工作流可被設計用於處理基因組原始資料,以使其更切合測序器需要,並使用遠端大資料叢集的MapReduce模型進行序列比對和組合;也可設計為當基因處理達50%完成率時,觸發代理事件把資料從衛星系統轉移到中央高效能運算叢集,從而使資料遷移和計算可併發進行以節省時間和成本。

由研究機構釋出基因組流程與他人共享,是對另一個編排器的需求。由於工作流模板可被儲存和分發,一些美國和卡達的主要癌症和醫學研究機構已開始通過交換基因組工作流進行合作。

溯源管理

有許多計算方法和應用可應用於收集、分析和註釋基因組序列。應用程式、基準資料和執行時變數是重要的溯源資訊,它們可對基因組分析的解讀和維護產生重要影響。目前,很少用不公開標準或慣例來捕捉溯源資訊,因為它可能導致重要計算分析資料的缺失。這個問題同樣潛伏在其他因素中,例如以複雜資料、工作流程或渠道作為高層次分析過程,或者所用的應用程式頻繁釋出更新。

因此,溯源管理成為編排器需要的一個可與資料集線器後設資料管理功能相媲美重要功能。溯源資料也可被理解為負載後設資料,溯源管理器的功能需求是捕捉、儲存和索引使用者定義的溯源資料,以透明無中斷的方式追溯到任何已有的計算負載或工作流。

基於這樣的需求,多種技術和解決方案正在研發,有些已經完成並已投入商用,如Lab7的ESP平臺和General Atomics的Nirvana。IBM也致力於開發了一種用於大規模、近實時的後設資料管理系統,可與資料集線器和編排器協同工作。

應用中心

概述

應用中心是訪問資料集線器和負載編排器的使用者介面。它基於角色訪問和安全控制提供了一個企業門戶,使研究人員、資料科學家、臨床醫生方便的訪問資料、工具、應用程式和工作流。它的目標是讓沒有計算機程式設計經驗的研究員和資料科學家能使用複雜的基因組研究平臺。

應用中心具有可重用優勢,可作為個性化轉型基因醫藥平臺的組成部分。

1460217478-5981-8c89a5f7ad31186eb64208

圖8 應用中心概述

圖中描述了啟動和監測負載,查詢和瀏覽資料,視覺化分析輸出,以及跟蹤系統日誌和使用資訊等環節。它定義了使用者(研究人員,醫生和分析師)和資料集線器與負載編排器間的抽象層。

對應用中心要求

對應用中心的要求包括如下兩點:

基於站點的目錄功能:它可訪問應用程式、工作流和資料集,並將它們視覺化。

監測功能:可監測、跟蹤、報告和管理特定應用資訊。

基於站點的目錄功能

資料科學家通常想直觀訪問基因組工作流和資料集,而基因組分析通常極其複雜,為最大限度消除兩者之間的障礙,應用中心目錄應運而生。它提供了預編譯和預驗證的應用程式模板和工作流定義,使用者能簡單直接啟動站點中的作業或工作流。

1460217478-2067-8c89a5f7ad31186eb65609

圖9 應用中心基因組工作流

圖中表示了端到端基因組工作流(BWA-GATK),通過應用中心站點被啟動並視覺化,從左側開始依次為:

框1:資料到達後自動觸發工作流開始工作。

框2:使用BWA進行序列比對的動態子流。

框3:使用Samtool進行作業陣列後處理。

框4:BAM檔案再校準。

框5:GATK進行變型提取。

應用中心目錄可用雲資料瀏覽器進行配置,來管理基因組計算需要的資料。在基於站點的瀏覽器中,使用者可通過瀏覽和搜尋所有遠端或本地儲存伺服器(資料集線器)的檔案和目錄找到基因組資料。無論檔案在哪裡,都可以追加檔案啟動作業。使用資料瀏覽器,使用者可通過標記檔案目錄快捷的找到它。例如,一個為基因組計算使用者標記的可用目錄能用來儲存經常訪問的參考資料集。

最後,資料瀏覽器也可以方便資料傳輸,使用者可把檔案從瀏覽器桌面拖放到當前遠端目錄以同時上傳多個檔案。

實時監控

應用中心監控還需提供了一個基於門戶的儀表板,提供全面的負載監控、報告和管理功能。作為監控工具,不僅單方面專注於系統監控,還提供完整的、整合化的負載監控設施。通過基因組應用程式的多樣化配置(如大記憶體、並行或單執行緒),跟蹤和彙總同作業與應用程式相關的計算機CPU、記憶體和儲存I/O實用資訊,幫助提高應用程式效率。

結束語

為了滿足基因研究對於速度、規模和智慧化的苛刻需求,面向負責建立和提供生命科學解決方案的專業技術人員(如科學家,諮詢顧問,IT架構師和IT專家等),該領域出現的端到端參考架構正結合各種基礎設施和資訊科技被部署到越來越多的研究機構中,而基於這種架構的客戶和合作夥伴生態系統也在不斷生長,逐步豐富著相應的解決方案和產品。隨著技術的發展,基因藥物有望徹底改變生物醫學研究和臨床護理。結合生物學途徑、藥物相互作用機理及環境因素對人類基因進行研究,使得基因科學家和臨床醫生有可能識別疾病高危人群,為他們提供基於生化標誌的早期診斷,並推薦有效的治療方法。

作者|仙偉  2011年加入IBM至今,從事軟體研發工作,研究方向為自動化工作流管理和高效能運算。