在大資料世界“尋寶”,科研新正規化如何用好儲存這把利器?

dobigdata發表於2020-11-15

模擬腦神經網路,探索人腦上億個神經元之間是如何連線與工作的,帶來每秒高達100TB資料高吞吐量;腦疾病研究中,透過數萬份患者資料驗證抑鬱症與睡眠治理不佳的腦區有重合之處;在自動駕駛車輛每天產生了數十TB資料中訓練視覺識別演算法;天文專家從數十PB海量資料中分析發現新天體……

如今在科研領域,資料正在發揮著越來越重要的作用。尤其是隨著資料採集、儲存等技術的不斷提升,海量資料的出現徹底改變了傳統科研模式。繼實驗科學、理論科學、計算科學之後,基於“資料密集型科學”的科研新正規化在大資料時代下,受到越來越多科研人員的青睞。

在“資料密集型科學”的科研新正規化驅動下,高校、科研機構加速構建人工智慧與大資料平臺、為不同學科提供創新基礎設施成為當務之急。但由於科研聚焦前沿研究,且不同學科之間存在著很大的差異性,造成對於資料的計算、採集、儲存、管理和利用的需求不盡相同,也讓高校的人工智慧與大資料平臺加速向更高水準演進。

資料要素成為科研的驅動力

科研正規化因為大資料而迅速改變。

正所謂是“巧婦難為無米之炊”,即便理論再“高明”、演算法再先進,缺乏資料的支援,再好的研究設計都得“半途而廢”。如果科研資料越多,研究人員就可以利用大量資料的相關性、可取代因果關係和理論與模型,基於海量資料間的相關性驗證更多研究想法和理論,獲得更多新知識和新發現。

例如,在當前非常熱門的類腦科學研究,有一個重要的方向就是多模態多尺度資料分析理論與應用。首先建立腦成像中心,全套磁共振成像裝置對小動物或者人體進行腦成像,不斷採集和分析腦科學資料,構建起多模態多尺度腦資料庫;然後,在利用模式識別、深度學習等類腦智慧方法尋找基因、腦影像和認知功能的診斷指標,以揭示腦疾病致病機制、提升腦疾病臨床診斷以及藥物療效評估的準確性和效率。

在大資料世界“尋寶”,科研新正規化如何用好儲存這把利器?

“目前高校資料量增長的確非常大,很多科研領域對於各種科研資料的收集也非常重視。”復旦大學大資料學院副院長薛向陽教授如是說。

如何理解資料密集型科學與之前計算科學之間的區別,兩種科研正規化似乎都需要透過大量的計算、資料來完成科學研究。但計算科學通常是先提出可行理論,再蒐集資料,之後透過計算模擬進行驗證;而資料密集型科學則是先透過採集大量的資料,再透過計算與分析獲得新知識和新發現。

“資料密集型科學”的科研新正規化核心挑戰還在於資料。科研資料的資料密集型,具有不可重複性、高度不確定性、高維、計算高度複雜等特徵。如今越來越多科研人員,面臨的不是缺少資料的難題,而是海量資料環境下如何儲存、管理和利用資料,這對於科研資料底座的儲存在容量、效能、擴充套件和管理等方面提出極高的要求。

薛向陽教授介紹:“我們正在建設一個人工智慧與大資料的開放共享平臺,就是希望為科研工作者解決資料儲存、管理和利用等方面的挑戰,讓資料更好地為科研所用。”

科研新正規化不應被儲存所束縛

與其他行業相比,高校與科研機構在建立人工智慧與大資料平臺時,對於儲存的要求更高,往往需要儲存這個科研資料基礎設施有效解決資料存不下、管不好、用不順等挑戰。

具體來看,如今的高校與科研機構普遍都在加速向“資料密集型科學”的科研新正規化轉變,多學科、交叉研究的現象很常見,都重視科研資料的採集與儲存,直接導致了底層儲存的巨大壓力。

以腦科學與類腦研究為例,其所產生的資料主要以影像大檔案為主,幷包含了大量臨時小檔案資料。由於需要儲存的資料量極大,並且始終保持著很高的增長速度,很多科研機構之前採用傳統縱向擴充套件的儲存很快出現明顯瓶頸;也有一些天文研究機構,一開始寄希望於透過公有云的方式來儲存資料,但是隨著資料不斷積累,透過公有云的方式不僅帶來了額外的頻寬成本,還存在效率等方面挑戰。

在大資料世界“尋寶”,科研新正規化如何用好儲存這把利器?

“當前很多高校的研究都是基於大資料,首先最關鍵的是將資料存下來。”薛向陽教授直言道。

除了將資料很好地存下來,高校與科研機構大多都渴望將資料流動與共享起來,但現實情況卻是資料管理粗放、不夠精細化,資料共享低效、管理困難。比如在高校中,經常會遇到一份科研資料同時被多個課題組所使用,每個課題組都需要複製一份資料,在不斷科研過程中,又各自產生了大量不同的資料,最後衍生出多種版本,讓資料管理的複雜度大幅升上,降低了資料功效與流動的效率。

另外,因為學科的不同,對於儲存的效能、功能要求也是千差萬別,沒有強大的儲存做支撐,往往讓科研人員用不順。例如,從事機器視覺研究的人員,對於儲存空間極度渴求;模擬腦神經網路相關的研究,當前只能模擬不到5%,要想100%模擬需要100 TB/s的通量,則對於資料儲存效能和頻寬要求極高,且挑戰巨大。薛向陽教授表示:“高校應用偏科學研究,很多應用都較為超前,對於儲存功能層面一直會產生新需求和新挑戰。”

“一直以來,浪潮都跟國內外多所高校進行緊密合作。高校科研領域的確走在資料儲存場景應用的最前沿。”浪潮儲存產品線副總經理周川如是說,“浪潮儲存有一些新功能、新思路都是在與高校、科研機構的深入合作中產生。”

例如,針對高校多個學科與多個課題組共享、使用、管理資料會產生多份資料的難題,浪潮儲存為使用者定製的軟複製功能,在後設資料和索引上做變更,使用者視角是多份不同的檔案,但底層則是共同的儲存空間,只有資料修改和寫入才會增加新的儲存空間,實現多份資料極速複製和使用,還大幅降低儲存容量開銷和管理成本,讓資料共享、使用變得更加高效。

浪潮儲存資深架構師葉毓睿介紹:“軟複製功能是浪潮儲存在科研場景實踐的一個小注腳,它帶來了兩大直接好處:一是資料共享加速,第二則是提升儲存效率。”

新儲存讓科研新正規化步入快車道

今年初,國家正式提出加快資料中心、5G等新型基礎設施的建設進度。國家發改委之後則首次指出,創新基礎設施為新基建三大範圍之一,包括科技基礎設施、科教基礎設施等,重點支撐科學研究、技術開發等工作。隨著中國高校科研費用投入逐年增加,多個科研領域取得諸多突破與成果,創新基礎設施的重要性也日漸突出。

為此,浪潮儲存今年提出新儲存之道,在“雲存智用、運籌新資料”理念的基礎上,推進“儲存即平臺”戰略,打造儲存的極致效能、容量、管理等七大核心能力,為創新基礎設施構建堅實的資料底座,讓科研新正規化進入到發展的快車道。

例如,在一些注重資料儲存效能的科研場景,浪潮儲存專門為高頻訪問的後設資料和日誌資料“開小灶”,採用SSD盤承載後設資料和日誌資料顯著提升熱點資料訪問速度,並針對不同資料型別的場景進行最佳化,讓每種場景都能夠快速訪問、使用資料。

在大資料世界“尋寶”,科研新正規化如何用好儲存這把利器?

又如,針對高校與科研機構運維人員較少、專業度有限的情況,浪潮儲存基於智慧儲存管理平臺InView,將人工智慧技術融入儲存系統,對儲存系統進行集中管理、智慧監測和故障預測報警,大幅降低科研機構日常的運維工作,並讓運維走向自動化和智慧化,從而更好地保障各種科研專案的順利進行。

不僅如此,針對高校科研領域對於資料儲存需求趨勢,浪潮儲存積極調研與深入溝通,在新儲存之道中聚焦新架構、新介質和新能力的打造,在EB級容量、億級IOPS、TB級頻寬、7個9可靠性、儲存自治等關鍵新能力上提前佈局,為科研的資料底座“厲兵秣馬”,提前做好準備。

總體來看,浪潮儲存近年來為構建強大的科研新基建不斷“加碼”,除了復旦大學類腦智慧科學與技術研究院、清華大學RUSH、華中科大蘇州腦科學研究院、中國天眼等一系列明星科研專案中積累了豐富的實踐經驗外,還在科研領域打通使用者需求洞察、場景功能適配與前沿技術創新,形成良性迴圈,讓科研新正規化加速步入發展的快車道。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69965091/viewspace-2734301/,如需轉載,請註明出處,否則將追究法律責任。

相關文章