新資料時代,科研需要什麼樣的創新基礎設施

dobigdata發表於2020-09-24

一直以來,從腦疾病的研究到大腦功能的解密,科學家從未停止過對大腦探索的步伐。在華中科大蘇州腦空間資訊研究院,科學家們正在做一件對於腦科學研究具有里程碑意義的事情:繪製一張可能是世界上最複雜的“地圖”——靈長類全腦的三維圖譜。

以小鼠三維腦圖譜為例,科學家們通常先對小鼠進行腦成像:將鼠腦標本固定,用金剛刀從上至下、從左至右,將鼠腦標本順次切成1微米厚度的薄片,一邊切片一邊拍照,照片實時儲存到計算機系統之中。當鼠腦成像結束,腦科學家再根據這些二維照片合成三維腦圖譜。

一個小鼠全腦有超7000萬個神經元,繪製小鼠腦圖譜需要15380張圖片,未壓縮的資料量高達8TB。人腦的體積大約是小鼠腦的1500倍,擁有860億個神經元,人腦的三維圖譜資料量將會再提升幾個量級。

現如今,單純的腦成像已經不成問題,但成像之後巨大的資料量如何儲存和分析成為當下腦科學等多個科研領域最為棘手的挑戰。

是什麼阻礙了“腦洞大開”

華中科大蘇州腦空間資訊研究院所遇到的情況是科研機構在新資料時代下的一個縮影。

一方面,得益於國家經濟實力的不斷提升,科學研究投入持續加大。根據《2019年全國科技經費投入統計公報》顯示,2019年全國研究與試驗發展經費首次突破2萬億元,達到22143.6億元,同比增長12.5%。

另一方面,數字化正在改變科研模式,過去相對薄弱的數字基礎設施開始面臨升級,亟需符合未來研發需求的新型基礎設施。正如發改委今年首次明確了新基建的範圍,將支撐科學研究等具有公益性質的重大科技、科教基礎設施劃分為創新基礎設施,屬於新基建未來重點投入方向。

“當前科研領域在儲存等基礎設施方面主要有容量、效能和穩定性三個典型挑戰。”華中科技大學計算機學院院長馮丹教授在浪潮雲數智中國行武漢峰會上如是說。

新資料時代,科研需要什麼樣的創新基礎設施

華中科技大學計算機學院院長馮丹教授

與其他行業相比,資料在科研領域的生產要素屬性更加快速顯現。科研資料往往具有資料密集型正規化的特點,具有資料量巨大的特徵。以目前世界上靈敏度最高的射電望遠鏡中國天眼專案為例,每天產生約500TB的零級未壓縮資料,預計未來十年資料量將超過100PB,對長期執行產生的海量資料進行儲存與計算分析正在深刻改變其科研模式,如何儲存與保護這些海量資料就成為巨大挑戰。

此外,隨著海量資料的產生,科研機構通常希望能夠讓資料採集、處理和儲存的速度提升,以更好、更快支撐起科學研究。馮丹教授表示:“科研專案對於效能一直很關注。早年前,像新材料研發這些研究可能資料量不會很大,但對於後端儲存效能要求極高。現在,科研的資料量普遍很大,對於儲存效能的要求就更高了。”

例如,華中科大蘇州腦空間資訊研究院儲存人腦三維圖譜資料,如果採用之前的成像系統,一臺系統至少需要花費20年時間才能完成資料的採集,這無疑是當前科研機構們所不能接受的,因此需要儲存具有分散式橫向擴充套件能力,提升其併發效能,讓資料的採集與分析更加快速,確保其研究專案的高效。

第三就是穩定和可靠,科研資料除了資料量之外,高質量與完整性也至關重要,因此對於儲存系統的穩定性和可靠性要求越來越高。儲存越穩定和可靠,意味著對高質量科研資料的儲存與完整就越有保障。

以清華大學RUSH腦成像研究專案為例,其對擁有1億神經元的小鼠大腦進行研究,28臺1200萬畫素相機以每秒30幀、連續72小時的方式對小鼠進行拍攝,每天將產生2.7PB左右的資料,最後將這些圖片拼接成三維影像序列,儲存系統需要滿足最長72小時拍攝過程中PB資料不丟幀。

事實上,在新資料時代加速到來的今天,包括科研領域的各行各業都在加快數字化的步伐,也直接驅動著儲存等基礎設施走向新的變革。

為數字化提速,儲存有哪些重要趨勢

當下,資料正在成為最重要的生產要素,是數字化轉型和智慧化升級的基礎。年初的《關於構建更加完善的要素市場化配置體制機制的意見》報告中首次新增“資料”要素,並指出要發揮“資料”這一新型要素對其他要素效率的倍增作用,使資料成為推動經濟高質量發展的新動能。

這恰恰是新資料時代到來的體現。就像科研領域越來越重視資料一樣,各行各業都渴望充分利用資料的價值、為數字化提速,使得與資料密切打交道的儲存呈現出重要的新趨勢。“在資料呈現爆炸性增長的趨勢下,隨著算力的提升和資料的積累,大資料智慧成為發展趨勢,也給儲存系統帶來一系列新變化。”馮丹教授直言。

馮丹教授介紹,儲存在PCM、3D NAND、3DXPoint等晶片器件上創新,將進一步帶動儲存裝置、系統、架構和軟體的創新,“面向大資料的儲存首先是以資料為中心,圍繞資料做相應處理,其次是近資料處理,在離資料最近的地方做處理,減少資料傳輸帶來的效能損耗;第三則是實現存算一體化或存算融合,直接在儲存中進行處理。另外,智慧相關技術也會加速融入到儲存系統之中,提升儲存系統效能、可管理性等。”

新資料時代,科研需要什麼樣的創新基礎設施

浪潮儲存作為近年來儲存市場上快速崛起的代表廠商,則認為未來儲存的發展理念是“雲存智用,運籌新資料”,在趨勢上為:雲、閃、智。

首先是“雲存”,即儲存需要與雲進行全面對接。雲端計算已經走向普及,企業上雲的趨勢不可阻擋,混合或者多雲環境將會成為常態。無論是公有云還是私有云,儲存層實現對它們的對接,將極大有利於資料的流動。葉毓睿介紹:“儲存與私有云管理平臺的對接,有利於私有云管理平臺按需驅動儲存資源的建立、調整、最佳化甚至回收;而儲存與公有云對接,則有利於更好地使用公有云彈性的資源,讓資料流動起來。”

另外,儲存加速實現全閃化也是大勢所趨。藉助於快閃記憶體介質成本的不斷下降、NVMe、RDMA等與快閃記憶體相關的技術逐漸走向成熟,快閃記憶體在儲存系統中的門檻愈發下降。隨著基於快閃記憶體介質的技術堆疊走向完善,全快閃記憶體儲存在效能、功能和容量三者之間有望實現“魚與熊掌可兼得”,有望在更多使用者中得到落地。

第三則是儲存快速邁向智慧化。一方面,儲存自身會融入更多人工智慧技術,根據業務負載、運維管理等資料特徵,進行不斷的學習與最佳化,從而提供更加精準的預警資訊和執行動作。馮丹教授也表示:“融入智慧化是儲存的大勢所趨。例如,華中大在研究的主動物件儲存技術中,最主要體現的就是智慧性,讓儲存系統並不是簡單的啞裝置被動響應請求,而是會根據歷史負載預測未來趨勢,讓儲存系統可以感知應用需求,然後採用不同的策略更好地服務不同的應用。”

另一方面,AI技術正在加速落地,但AI準備、訓練、推理和歸檔等各階段的IO特徵不同,對於儲存需求也不同,將會進一步推動AI儲存產品加速到來。“例如,AI在模型訓練階段的IO特徵為高併發、以讀為主的小IO;而推理階段的IO特徵是讀寫混合,要求儲存延時低,能夠快速響應。”葉毓睿補充道。

為“新資料時代”做好準備

IDC《2019年資料及儲存發展研究報告》中指出,新資料時代表現出的新資料特徵:資料增長、企業對實時資料需求增加、多雲部署模式成趨勢、多元和非結構化資料成為常態。從本質上來看,儲存需要為使用者在新資料時代下更好地存好、用好和排程好資料,為其數字化轉型和智慧化升級提供支撐。

在眾多廠商中,浪潮儲存近年來已經成為市場中一股不可或缺的力量。根據IDC最新資料顯示,浪潮儲存在今年第二季度出貨量躍居中國第二,增長速度位列中國第一,並且增速遠超其他廠商。這背後是浪潮儲存致力於幫助使用者為“新資料時代”做好準備的戰略佈局。

新資料時代,科研需要什麼樣的創新基礎設施

浪潮集團雲數智中國行

浪潮儲存在戰略上提出了“雲存智用,運籌新資料”的理念,打造儲存平臺戰略,重點發展分散式儲存和快閃記憶體儲存等新儲存,並致力於打造儲存七大極致能力,更好地幫助使用者在多元化、應用複雜化的資料全域性中將資料存好、用好和排程好,更好地發揮出資料價值。

為更好地支撐起“雲存智用,運籌新資料”理念,浪潮儲存在過去幾年投入了20億元巨資攻關儲存核心技術的突破,比如浪潮儲存幾年前開始佈局快閃記憶體盤,其NVMe SSD已經在浪潮伺服器中進行搭載售賣,接下來還會在集中式儲存和分散式儲存中搭載;另外,浪潮儲存在儲存架構上將致力於打造出融合分散式和集中式架構優勢的新儲存架構,以實現“一個資料中心,一套儲存”的願景目標。

浪潮儲存短短几年的飛速成長,同樣離不開強大人才體系的打造。浪潮儲存從過去幾十人的規模如今成長為上千人的團隊,其研發、市場、銷售人才體系不斷充實與壯大。此外,浪潮儲存還注重與華科大等高校、科研機構緊密合作,共同攻關儲存多項核心技術的突破。

未來,隨著新基建的建設逐漸深入,千行百業必然會在數字基礎設施層迎來更大的變化,儲存作為新基建中的基石,其作用與價值將會得到進一步提升。如何為千行百業提供符合“新資料時代”的產品與解決方案,浪潮儲存“厲兵秣馬”,已經做好準備。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69965091/viewspace-2723661/,如需轉載,請註明出處,否則將追究法律責任。

相關文章