跨越資料的“嘆息牆”:華為下一代資料湖與HPDA時代
公元前586年,耶路撒冷的第一聖殿被入侵的巴比倫軍隊摧毀,所羅門王朝的恢弘建築只留下一座“嘆息之牆”。從此開始,“嘆息牆”經常被比喻為那些時代難以跨越的鴻溝。在大資料與智慧時代,千行百業擁有了前所未有的資料種類、資料存量和資料應用方式,但這些海量的資料也同時造成了嚴苛的挑戰,給很多行業、企業塑造了一道由資料組成的“嘆息牆”。
想要以超高的算力、多元化的智慧演算法攻克產業難題,擴充價值邊界,首先需要跨越資料鴻溝,將龐大的資料由負擔轉化為助力。
尤其對於HPC(高效能運算)場景來說,豐富的資料正在帶給計算體系以深刻的價值變革,推動HPC的任務目標、任務實現方式與應用承載方式產生一系列升級。HPC正在走向HPDA(高效能資料分析)的躍遷之路。
3月23日,華為宣佈創新資料基礎設施體驗中心及行業創新體驗中心在成都落成,該體驗中心旨在搭建一個面向全球政府、金融、醫療、教育、能源等行業的技術交流與合作平臺。在參觀創新資料基礎設施體驗中心的過程中,華為推出的下一代資料湖解決方案OceanStor Pacific讓我產生了不小的興趣。
讓我們從資料與計算的新發展週期說起,聊聊華為OceanStor Pacific給產業探索帶來的新可能。
不能讓資料成為“嘆息牆”:HDPA為何是大勢所趨?
以往的HPC場景,或者我們在廣泛定義中的超算系統,雖然也要有儲存系統作為支撐,但其主要解決的是數值分析、模型分析等靠近數學側的問題。HPC的目標相對單一,其價值主要是作為底層科研工具支撐社會的發展。
但隨著技術的進步和產業需求的發展,超級算力正在與越來越多的現實產業與科技探索相結合。而這就引出了一個關鍵的問題:HPC系統需要應對、儲存、呼叫非常複雜的現實資料。
在今年,新冠疫苗成為了社會關注度最高的話題之一,而疫苗研發的背後就有HPC對蛋白質分析、病毒模型解析等海量資料的處理能力。這場全球抗疫的關鍵賽跑,同時也蘊含著算力與資料間的一場競賽。
HPC與真實產業、現實場景結合的案例正在不斷激增,自動駕駛、油氣勘探、精準天氣預報、天文觀察等等場景,既需要強大的算力,同時也需要計算系統負載和處理差異化明顯的不同資料。比如自動駕駛需求處理大量影片與感測資料、交通安全需要處理海量圖片資料,而這些資料帶來的壓力,構成了超算體系進入智慧時代的主要挑戰和進化方向。隨著計算能力本身的提升,加上大資料、AI等新興技術與傳統HPC的結合,超算系統走向資料密集型、多元化處理能力已經成為了確定性需求,這也就是從HPC到HDPA的演變必然性。
而想要確保這場演變順利完成,我們可以發現超算系統需要克服三大挑戰:
1、首先是資料量的持續指數級增長。
以油氣勘探生成3D模型為例,模型的精準化將帶來十倍的資料膨脹;而一輛自動駕駛汽車測試,每天就將產生60TB的必須長期儲存資料。應對真正的海量資料,成為了HDPA時代的第一課。
2、資料負載型別多元化。
與傳統的資料存放型別相比,新週期的資料負載將出現資料多樣化統一存放、處理的巨大變革。並且在資料混合負載的基礎上,還需要支撐更頻繁、便捷的資料呼叫、資料遷移等操作,給資料體系帶來了眾多全新壓力。
3、資料相關應用複雜化。
目前階段,AI技術正在成為算力投放的主要標的,資料應用的主要輸出點。但AI演算法本身複雜多元,個性化極強。這意味著智慧時代的超算相關應用將極大複雜化,帶給資料儲存以額外的挑戰。
這些挑戰意味著,數字經濟時代HPC正在由計算密集型走向儲存密集型。與此同時可以看到,HPC已經成為大國科技競賽中的重要賽道。在HPC體系中,資料基礎設施又處在發展相對緩慢的一環。2020年開始,超算中心已經成為“新基建”規劃中的主要建設方向,而新基建中的超算中心,顯然應該是能夠承載多樣化資料、海量資料規模,與國計民生緊密相聯的計算體系。而這就需要能夠支撐HPDA演變的資料基礎設施升級。
為此,華為推出了OceanStor Pacific系列下一代資料湖儲存,推動HPC向HPDA加速演進。
下一代資料湖:華為海量儲存OceanStor Pacific帶來的變革
從HPC向HPDA演進,首當其中是要提升各產業資料中心、超算系統的資料儲存、負載、呼叫能力,而這就需要資料湖相關產品完成能力上的進化升級。
2011年,業界開始出現資料湖相關概念,所謂資料湖,是指對自然、原始格式資料進行全量儲存的資料基礎設施。資料湖可以承載原始資料直接存放的容量挑戰,同時支援AI、視覺化、大資料分析等關鍵應用的演進。
作為HPC的資料搭檔,資料湖需要在HPDA演進中扮演關鍵角色。在目前階段,新車的研發時間由6年縮短為2年,基因測序時長由13年縮短為僅僅1天,油氣勘探的精度由二維提升到三維,這背後都需要資料湖完成資料存放、呼叫的支撐。
在華為看來,資料湖的升級演進主要需要完成三大目標:
1、超高密設計:資料基礎設施的升級,不能以無限制投入空間和投資為代價,所以資料湖產品的高密設計是必由之路。儲存產品需要在有限的空間下,完成海量資料的有效存放。
2、面向混合負載:面向產業級的超算體系,一套儲存必須支援支援不同業務流程、產業環節的混合負載。以油氣勘探為例,過往資料採集、解釋、處理每個環節的業務能力對儲存的需求都不同,只能搭建多套儲存來應付,而這會造成大量遷移成本和風險。資料湖產品必須實現多資料、多業務的混合負載,完成對產業級超算的支撐。
3、多協議快速流轉:面向產業超算需求,儲存體系需要能夠支撐不同資料型別的打通,支援多種資料種類、模組之間的快速流轉。
面對這些趨勢,華為已經推出了全棧化的下一代資料湖解決方案。去年年底,華為正式推出了海量儲存OceanStor Pacific,能夠滿足HPC向HPDA的演進需求。OceanStor Pacific支援4096個節點,能夠支援混合負載、融合協議互通,可以說是為高效能運算、大資料乃至影片儲存構建的新一代的資料湖儲存。
OceanStor Pacific分為兩款硬體。一款是被華為戲稱為“超級跑車”的OceanStor Pacific 9950,其高密設計可以有效解決海量資料的機房空間、能源消耗問題。高密高效能全快閃記憶體硬體,可以實現5U空間支援80個Half Palm盤,每U IOPS領先業界60%,每U頻寬領先業界30%。而高密大容量硬體OceanStor Pacific 9550,則被稱為“容量怪獸”,5U空間可以放置120塊大容量HDD盤,實現“1臺頂三臺”的容量提升。與此同時,OceanStor Pacific還在高密空間、便捷維護、散熱效能等設計上獨樹一幟,實現下一代資料湖價值的全面釋放。
HDPA時代,我們將見證的資料聚變
從華為OceanStor Pacific帶來的資料湖升級價值,我們已經可以看到海量儲存升級為HPDA時代帶來的價值演進。在資料基礎設施的升級下,超算體系可以更緊密與物理世界的海量資料融合,帶來超算能力參與到產業一線、科研前沿的全新可能。同時,智慧化技術也可以在海量資料儲存的升級下得到更好支撐,我們知道資料、演算法和算力是智慧三要素,而資料的便捷、可靠、大容量,是產業級智慧升級的開始。
HPDA時代,超算能力將從算力密集型的數學、機械等領域,向資料密集型的天文、物理、化學、地質,以及千行百業的生產力一線進發。而我們已經可以看到華為OceanStor Pacific在很多案例中帶來了這種價值改變。
比如在全球著名的SKA天文望遠鏡陣列中,上海天文臺就與華為合作,搭建了世界首臺SKA區域中心原型機核心業務儲存系統。在儲存能力升級的前提下,探索宇宙身處奧秘的SKA得到了更強的資料處理效率,加速了人類開啟未知世界大門。
在挪威Lundin石油的深海油氣勘業務中,華為幫助其建設了匹配新型油藏模擬技術的儲存基礎架構,實現資料高效儲存、分析,並且能夠有效提升勘探精度,大幅度油氣勘探效率。在華為OceanStor 海量儲存的幫助下,挪威Lundin石油實現了冷資料分層儲存,儲存空間節省了73%,遠端複製容災效率極大提升。
這些案例僅僅是HPDA時代的開端,我們已經可以看到,在自動駕駛、基因測序、電影渲染、精準天氣預報、金融反欺詐等領域,海量儲存有著廣泛的應用前景,並且是資料計算能力提升的必然需求。
在HPDA時代,如山似海的資料不再會是產業發展的“嘆息牆”,而是行業智慧化的跑道與發動機。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2765580/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 資料湖是下一代資料倉儲?
- Robinhood基於Apache Hudi的下一代資料湖實踐Apache
- 資料倉儲、資料湖與湖倉一體的區別與聯絡
- 資料湖+資料倉儲 = 資料湖庫架構架構
- 大資料時代的資料治理!大資料
- 讀資料湖倉04資料架構與資料工程架構
- 大資料與牆的故事大資料
- 4大特點解析華為雲資料湖“黑科技”
- 一文讀懂:本地資料湖丨資料倉儲丨雲資料湖的利與弊
- 資料湖
- 資料湖架構,為什麼需要“湖加速”?架構
- 資料湖中加熱資料?
- 大資料時代,如何做資料探勘與分析!大資料
- 企業如何借實時湖倉贏在“資料制勝”時代?
- 資料基礎設施的詠歎調:華為給大資料時代一個智慧擁抱大資料
- 大資料下一代變革之必研究資料湖技術Hudi原理實戰雙管齊下-下大資料
- 大資料下一代變革之必研究資料湖技術Hudi原理實戰雙管齊下-中大資料
- 資料湖統一後設資料與許可權
- 大資料下一代變革之必研究資料湖技術Hudi原理實戰雙管齊下-後續大資料
- 鑿開資料冰層,透出智慧時代的光:華為雲與開發者的結伴旅行
- 與Google Spanner跨越資料庫世界的對話 - nextplatformGo資料庫Platform
- 圖資料庫——大資料時代的高鐵資料庫大資料
- 關於資料湖、資料倉儲的想法
- 資料湖 vs 資料倉儲 vs 資料庫資料庫
- 易觀:避免“資料湖”成為“資料沼澤”,流動的“資料河”是關鍵
- 讀資料湖倉02資料抽象抽象
- 讀資料湖倉06資料整合
- 讀資料湖倉08資料架構的演化架構
- 讀資料湖倉03不同型別的資料型別
- 讀資料湖倉05資料需要的層次
- 資料湖和中央資料倉儲的設計
- 貝寶:基於DDD的下一代資料平臺是資料網格
- 讀資料湖倉01讓資料可信
- 談談資料湖和資料倉儲
- 資料湖會取代資料倉儲嗎?
- 大資料轉型方案:首推資料湖!大資料
- 資料湖 vs 倉庫 vs 資料庫資料庫
- 資料為王的時代,NLP資料產業會是下一個藍海產業