在大資料世界“尋寶”,科研新正規化如何用好儲存這把利器?
模擬腦神經網路,探索人腦上億個神經元之間是如何連線與工作的,帶來每秒高達100TB資料高吞吐量;腦疾病研究中,透過數萬份患者資料驗證抑鬱症與睡眠治理不佳的腦區有重合之處;在自動駕駛車輛每天產生了數十TB資料中訓練視覺識別演算法;天文專家從數十PB海量資料中分析發現新天體……
如今在科研領域,資料正在發揮著越來越重要的作用。尤其是隨著資料採集、儲存等技術的不斷提升,海量資料的出現徹底改變了傳統科研模式。繼實驗科學、理論科學、計算科學之後,基於“資料密集型科學”的科研新正規化在大資料時代下,受到越來越多科研人員的青睞。
在“資料密集型科學”的科研新正規化驅動下,高校、科研機構加速構建人工智慧與大資料平臺、為不同學科提供創新基礎設施成為當務之急。但由於科研聚焦前沿研究,且不同學科之間存在著很大的差異性,造成對於資料的計算、採集、儲存、管理和利用的需求不盡相同,也讓高校的人工智慧與大資料平臺加速向更高水準演進。
資料要素成為科研的驅動力
科研正規化因為大資料而迅速改變。
正所謂是“巧婦難為無米之炊”,即便理論再“高明”、演算法再先進,缺乏資料的支援,再好的研究設計都得“半途而廢”。如果科研資料越多,研究人員就可以利用大量資料的相關性、可取代因果關係和理論與模型,基於海量資料間的相關性驗證更多研究想法和理論,獲得更多新知識和新發現。
例如,在當前非常熱門的類腦科學研究,有一個重要的方向就是多模態多尺度資料分析理論與應用。首先建立腦成像中心,全套磁共振成像裝置對小動物或者人體進行腦成像,不斷採集和分析腦科學資料,構建起多模態多尺度腦資料庫;然後,在利用模式識別、深度學習等類腦智慧方法尋找基因、腦影像和認知功能的診斷指標,以揭示腦疾病致病機制、提升腦疾病臨床診斷以及藥物療效評估的準確性和效率。
“目前高校資料量增長的確非常大,很多科研領域對於各種科研資料的收集也非常重視。”復旦大學大資料學院副院長薛向陽教授如是說。
如何理解資料密集型科學與之前計算科學之間的區別,兩種科研正規化似乎都需要透過大量的計算、資料來完成科學研究。但計算科學通常是先提出可行理論,再蒐集資料,之後透過計算模擬進行驗證;而資料密集型科學則是先透過採集大量的資料,再透過計算與分析獲得新知識和新發現。
“資料密集型科學”的科研新正規化核心挑戰還在於資料。科研資料的資料密集型,具有不可重複性、高度不確定性、高維、計算高度複雜等特徵。如今越來越多科研人員,面臨的不是缺少資料的難題,而是海量資料環境下如何儲存、管理和利用資料,這對於科研資料底座的儲存在容量、效能、擴充套件和管理等方面提出極高的要求。
薛向陽教授介紹:“我們正在建設一個人工智慧與大資料的開放共享平臺,就是希望為科研工作者解決資料儲存、管理和利用等方面的挑戰,讓資料更好地為科研所用。”
科研新正規化不應被儲存所束縛
與其他行業相比,高校與科研機構在建立人工智慧與大資料平臺時,對於儲存的要求更高,往往需要儲存這個科研資料基礎設施有效解決資料存不下、管不好、用不順等挑戰。
具體來看,如今的高校與科研機構普遍都在加速向“資料密集型科學”的科研新正規化轉變,多學科、交叉研究的現象很常見,都重視科研資料的採集與儲存,直接導致了底層儲存的巨大壓力。
以腦科學與類腦研究為例,其所產生的資料主要以影像大檔案為主,幷包含了大量臨時小檔案資料。由於需要儲存的資料量極大,並且始終保持著很高的增長速度,很多科研機構之前採用傳統縱向擴充套件的儲存很快出現明顯瓶頸;也有一些天文研究機構,一開始寄希望於透過公有云的方式來儲存資料,但是隨著資料不斷積累,透過公有云的方式不僅帶來了額外的頻寬成本,還存在效率等方面挑戰。
“當前很多高校的研究都是基於大資料,首先最關鍵的是將資料存下來。”薛向陽教授直言道。
除了將資料很好地存下來,高校與科研機構大多都渴望將資料流動與共享起來,但現實情況卻是資料管理粗放、不夠精細化,資料共享低效、管理困難。比如在高校中,經常會遇到一份科研資料同時被多個課題組所使用,每個課題組都需要複製一份資料,在不斷科研過程中,又各自產生了大量不同的資料,最後衍生出多種版本,讓資料管理的複雜度大幅升上,降低了資料功效與流動的效率。
另外,因為學科的不同,對於儲存的效能、功能要求也是千差萬別,沒有強大的儲存做支撐,往往讓科研人員用不順。例如,從事機器視覺研究的人員,對於儲存空間極度渴求;模擬腦神經網路相關的研究,當前只能模擬不到5%,要想100%模擬需要100 TB/s的通量,則對於資料儲存效能和頻寬要求極高,且挑戰巨大。薛向陽教授表示:“高校應用偏科學研究,很多應用都較為超前,對於儲存功能層面一直會產生新需求和新挑戰。”
“一直以來,浪潮都跟國內外多所高校進行緊密合作。高校科研領域的確走在資料儲存場景應用的最前沿。”浪潮儲存產品線副總經理周川如是說,“浪潮儲存有一些新功能、新思路都是在與高校、科研機構的深入合作中產生。”
例如,針對高校多個學科與多個課題組共享、使用、管理資料會產生多份資料的難題,浪潮儲存為使用者定製的軟複製功能,在後設資料和索引上做變更,使用者視角是多份不同的檔案,但底層則是共同的儲存空間,只有資料修改和寫入才會增加新的儲存空間,實現多份資料極速複製和使用,還大幅降低儲存容量開銷和管理成本,讓資料共享、使用變得更加高效。
浪潮儲存資深架構師葉毓睿介紹:“軟複製功能是浪潮儲存在科研場景實踐的一個小注腳,它帶來了兩大直接好處:一是資料共享加速,第二則是提升儲存效率。”
新儲存讓科研新正規化步入快車道
今年初,國家正式提出加快資料中心、5G等新型基礎設施的建設進度。國家發改委之後則首次指出,創新基礎設施為新基建三大範圍之一,包括科技基礎設施、科教基礎設施等,重點支撐科學研究、技術開發等工作。隨著中國高校科研費用投入逐年增加,多個科研領域取得諸多突破與成果,創新基礎設施的重要性也日漸突出。
為此,浪潮儲存今年提出新儲存之道,在“雲存智用、運籌新資料”理念的基礎上,推進“儲存即平臺”戰略,打造儲存的極致效能、容量、管理等七大核心能力,為創新基礎設施構建堅實的資料底座,讓科研新正規化進入到發展的快車道。
例如,在一些注重資料儲存效能的科研場景,浪潮儲存專門為高頻訪問的後設資料和日誌資料“開小灶”,採用SSD盤承載後設資料和日誌資料顯著提升熱點資料訪問速度,並針對不同資料型別的場景進行最佳化,讓每種場景都能夠快速訪問、使用資料。
又如,針對高校與科研機構運維人員較少、專業度有限的情況,浪潮儲存基於智慧儲存管理平臺InView,將人工智慧技術融入儲存系統,對儲存系統進行集中管理、智慧監測和故障預測報警,大幅降低科研機構日常的運維工作,並讓運維走向自動化和智慧化,從而更好地保障各種科研專案的順利進行。
不僅如此,針對高校科研領域對於資料儲存需求趨勢,浪潮儲存積極調研與深入溝通,在新儲存之道中聚焦新架構、新介質和新能力的打造,在EB級容量、億級IOPS、TB級頻寬、7個9可靠性、儲存自治等關鍵新能力上提前佈局,為科研的資料底座“厲兵秣馬”,提前做好準備。
總體來看,浪潮儲存近年來為構建強大的科研新基建不斷“加碼”,除了復旦大學類腦智慧科學與技術研究院、清華大學RUSH、華中科大蘇州腦科學研究院、中國天眼等一系列明星科研專案中積累了豐富的實踐經驗外,還在科研領域打通使用者需求洞察、場景功能適配與前沿技術創新,形成良性迴圈,讓科研新正規化加速步入發展的快車道。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69965091/viewspace-2734301/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 利用好 git bisect 這把利器,幫助你快速定位疑難 bugGit
- Lyft如何儲存支援其ML模型的大規模特徵資料?模型特徵
- 資料治理三大模式詳解,治理新正規化釋放資料潛能模式
- 原來大資料 Hadoop 是這樣儲存資料的大資料Hadoop
- 如何高效地儲存與檢索大規模的圖譜資料?
- Flutter持久化儲存之資料庫儲存Flutter持久化資料庫
- Netflix實戰指南:規模化時序資料儲存
- graphql-normalizr: 儲存規範化GraphQL響應資料ORM
- 淺議個人資料開發利用新正規化
- 如何把每日明細資料累計後按分類儲存
- 如何實現企業雲盤資料化儲存
- 去中心化大資料儲存的開源方案:Storj中心化大資料
- iOS資料持久化儲存-CoreDataiOS持久化
- Kubernetes 持久化資料儲存 StorageClass持久化
- 規模化執行容器時的最佳資料儲存路徑
- 大資料:數字化轉型利器大資料
- 在Hadoop環境中,大資料儲存的技巧有哪些?Hadoop大資料
- 在機器世界探尋資料寶藏,開放思維是不二法則
- 如何在MongoDB設計儲存你的資料(JSON化)?MongoDBJSON
- 資料儲存--檔案儲存
- 資料成本:雲端儲存成本高嗎如何節省資料儲存成本
- 從 RAID 到 Hadoop Hdfs 『大資料儲存的進化史』AIHadoop大資料
- 如何用好圖資料庫資料庫
- DataLeap資料資產實戰:如何實現儲存最佳化?
- 用好大資料這座“富礦”AB大資料
- 長文字殺不死RAG:SQL+向量驅動大模型和大資料新正規化,MyScale AI資料庫正式開源SQL大模型大資料AI資料庫
- 假如有人把支付寶儲存伺服器炸了伺服器
- 結構化資料儲存,如何設計才能滿足需求?
- 如何設計淘寶天貓這種成功而有價值大資料視覺化?大資料視覺化
- 儲存卡變為RAW,如何進行儲存卡資料救援
- 資料儲存(1):從資料儲存看人類文明-資料儲存器發展歷程
- 以太坊和IPFS如何儲存資料
- Redis為何這麼快–資料儲存角度Redis
- 大資料檔案儲存系統HDFS大資料
- 如何用好雲原生資料湖?
- 海量非結構化資料儲存難題 ,杉巖資料物件儲存完美解決物件
- 用“極速統一”,開啟金融行業資料分析新正規化行業
- Room-資料持久化儲存(入門)OOM持久化