運籌新資料,中山大學精準醫學中心的新儲存之道

dobigdata發表於2020-11-06

什麼叫精準醫學?

百科是這樣定義的:精準醫學(Precision Medicine)是以個體化醫療為基礎、隨著基因組測序技術快速進步以及生物資訊與大資料科學的交叉應用而發展起來的新型醫學概念與醫療模式。

定義可能過於學術化,不易於理解,來看看現實中經常遇到的例子:A和B同時患有某種腫瘤疾病,同樣的藥物對於A有效,但對於B卻沒有效果,反而會影響到B的病情;C和D患有不同腫瘤疾病,卻透過同樣的藥物讓病情得到極大緩解。類似情況在癌症、腫瘤等疾病領域經常出現,個體因為遺傳基因、所處環境和生活方式的不同,在治療反應性上存在著很大的差異。

精準醫學的出現,改變過去“一刀切”的治療方法,透過整合基因組學、蛋白質組學、代謝組學以及相關環境與生活方式等大資料資訊,為患者精準制定最有效治療方案。事實上,從最早的經驗醫學到循證醫學,再到如今的精準醫學,醫療模式走向數字化、精準化已成必然趨勢。

要實現精準醫學,先決條件在於構建一個巨大的“疾病知識網路”,其中關鍵在於資料和大資料平臺:資料越豐富、維度越全面,意味著治療方案的決策正確性就越高;大資料平臺效能強、穩定性高、可靠性出色,則可以支撐起整個精準醫學的長期研究。

那麼,精準醫學的業務需求有哪些特點,資料特徵情況如何,對於大資料平臺建設又有哪些核心訴求?作為中國精準醫學發展的先行者,中山大學精準醫學科學中心自籌建伊始就確定了建立醫學大資料中心,以大資料平臺作為核心基礎設施,來採集、儲存、管理和利用資料,為精準醫學發展打了個樣。

一個影響未來五年的選擇題

從2015年起,中山大學精準醫學科學中心開始籌建,首先需要面臨三件大事:成立樣本庫、建立醫學大資料中心和搭建精準醫學實驗技術平臺。如果從數字化的角度來看,成立樣本庫相當於構建起一個醫療相關資料集合庫;建立醫學大資料中心則是為了採集、儲存、管理整個資料;而精準醫學實驗技術平臺負責資料價值最終的輸出。

在三件事情中,醫學大資料中心的建設雖然是最底層範疇,卻屬於新基建中典型的創新基礎設施,起到支撐起整個科學研究運轉的關鍵作用。中山大學精準醫學科學中心在建設醫學大資料中心時,面臨著架構的選擇,“第一個是超融合架構,另一個則是採用存算分離架構。”中山大學精準醫學科學中心生物醫學大資料平臺高階工程師肖華鋒如是說,“架構的選擇關係著未來五年醫學大資料平臺能否有效支撐起精準醫學業務研究。”

運籌新資料,中山大學精準醫學中心的新儲存之道

中山大學精準醫學科學中心生物醫學大資料平臺 高階工程師肖華鋒

彼時的超融合正是基礎架構領域冉冉升起的明星,受到了業界、使用者們的廣泛關注,憑藉簡化的架構、強大的併發效能以及便捷的管理等優勢,被認為是基礎設施建設的首選。但是,中山大學精準醫學科學中心經過對精準醫學資料型別、業務特徵以及未來應用規劃進行仔細和反覆的調研之後,最終選擇了存算分離架構來構建醫學大資料中心。

為什麼會捨棄超融合,選擇存算分離的架構?肖華鋒解釋道:“當時決策原因有兩點:一是成本,當時超融合成本高,每個節點必須配置SSD,加上License費用,採購成本較高;第二則是從場景適用上考慮,精準醫學科學中心場景中,儲存需求增長速度遠超過計算,超融合擴充套件是計算與儲存等比例擴充套件,存算分離架構反而會帶來更加靈活的擴充套件方式。”

那麼,醫學大資料中心採用存算分離架構之後,真實情況會不會出現“理想很豐滿,現實很骨幹”的窘境?

讓理想照進現實

從2016年開始,中山大學精準醫學中心開展生物醫學大資料平臺工作,核心是建成資料匯交、清洗整合、儲存管理、共享交換、隱私保護、開放共享的醫學大資料和生命組學資料兩大資料庫,並開展醫學大資料互聯共享工程,建立資料標準體系和安全體系,實現患者醫學資料跨系統/區域互聯互認、資料共享工作。

“中山大學精準醫學中心生物醫學大資料平臺真正意義上把附屬醫院的資料和中心實現互聯互通,並實現了資料互動和儲存。”肖華鋒介紹道,“不過,資料增長的確是太快啦。”

建設之初,生物醫學大資料平臺規劃了浪潮500TB集中式SAN儲存來承載精準醫學醫學大資料平臺的檢索、360隨身檔案系統等核心業務應用,目前使用近半;規劃1PB 浪潮分散式儲存AS13000來儲存海量影像資料,隨著業務資料的採集量的增加,不到3年時間,中心的影像儲存已經擴充套件到了2PB。

運籌新資料,中山大學精準醫學中心的新儲存之道

浪潮儲存產品

在有海量儲存為資料增長帶來的容量挑戰兜底之後,如何應對資料應用帶來的挑戰又是一個難題。“中心的資料在沒有科研任務的時候基本都是冷資料,而當課題介入,研究人員需要檢索和分析資料時,往往週期又很長,可能長達半個月。此時,又希望資料是熱的。”肖華鋒介紹道。好在浪潮儲存過去四年一直都平穩執行,在容量和效能上都滿足了需求。

未來需要新儲存之道

隨著生物醫學大資料平臺和生物樣本庫逐漸完善,精準醫學相關研究與業務開始步入快車道,醫學大資料中心在儲存上未來又面臨著新的訴求與挑戰。

首先是資料的增長速度和增長量會比以往還要大,尤其是生物樣本庫建好之後,中山大學精準醫學科學中心的多組學研究平臺將以此構建起來,包括代謝組學、基因組學等,這些應用的上線與加碼將進一步帶來資料爆炸性的增長。肖華鋒坦言:“中心的三個基礎平臺、兩個研究平臺和一個應用平臺整體佈局逐漸完善之後,預計儲存一年擴充套件10P將會成為一種常態。”

另外,生物醫學大資料平臺基於人工智慧相關的醫學研究正在迅速增加,對於儲存容量和效能提出更高挑戰。

“中山大學精準醫學科學中心是當下使用者對於儲存容量和效能訴求的一個典型代表。”浪潮儲存資深架構師葉毓睿如是說:“面對一個數字化的智慧時代加速到來,浪潮提出了新儲存之道,讓儲存朝著EB級容量、億級IOPS、TB級頻寬等新能力加速演進,來滿足使用者不斷增長的需求。”

運籌新資料,中山大學精準醫學中心的新儲存之道

肖華鋒與葉毓睿接受大資料線上採訪

其次,中山大學精準醫學科學中心醫學大資料中心還將面臨著新舊裝置混用、不同廠商裝置混用的情況,加上其資料量不斷提升,裝置數量也會隨之增加,如何發揮各種裝置的效能以及如何運維管理各種裝置就成為極大的挑戰。肖華鋒直言:“我們中心運維人員很少,醫學資料類三級等保對運維又有著極為嚴格的要求,迫切需要智慧運維技術來減輕壓力。”

事實上,儲存融入AI技術加速走向智慧化正在成為趨勢。儲存根據業務負載、運維管理等資料特徵,進行不斷的學習與最佳化,從而提供更加精準的預警資訊和執行動作,讓自身運維與管理走向智慧化。葉毓睿介紹:“以浪潮儲存為例,iTurbo智用引擎可以透過智慧IO感知、智慧多路徑、智慧資料組織、智慧資源排程四大核心技術為業務應用提速;而智慧統一儲存管理平臺InView則提供了效能容量預測分析、磁碟故障預測與定位等一系列智慧化功能,規避硬體故障帶來的風險和損失,有效降低運維壓力。”

總體來看,精準醫學依然處於起步的初期,中山大學精準醫學科學中心作為先行者,對於醫學大資料中心的建設有著深刻的認知,並且在架構選擇上做出了明智的選擇。未來,隨著精準醫學研究的不斷深入,中山大學精準醫學科學中心對於衍生出來的新儲存需求與挑戰也有著清晰的判斷,其精準醫學研究有望開啟新局面,值得精準醫學的同仁借鑑與學習。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69965091/viewspace-2732741/,如需轉載,請註明出處,否則將追究法律責任。

相關文章