HPC、AI與雲端計算:當智慧時代三叉戟在亞馬遜雲科技完美融合

naojiti發表於2022-08-17

希臘神話中,海神與豐收之神波塞冬手持三叉戟,為航船保駕護航,為農人帶來清泉。從此之後,三叉戟經常用來比喻三種事物緊密結合,形成合力,比如足球世界很多球隊都有經典的鋒線三叉戟。

在企業上雲與產業智慧化的浪潮裡,也有前沿技術趨勢上的三叉戟組合:業務與組織上雲正在成為絕大多數企業的數字化發展選擇;算力逐漸成為企業的戰略性資源,而云端近乎無限的叢集算力,使越來越多的行業與場景創新可以依賴雲端高效能運算來完成;AI正在改變千行百業的生產方式,成為科研與產業探索的先驅力量,機器學習和深度學習也帶來了人工智慧專項算力需求的爆發。

而在很多人的印象中,HPC高效能運算、AI、雲服務的三叉戟還處在各自獨立,並行發展的階段,尤其在雲端實現高效能運算似乎還過於前衛。

但從產業效率的邏輯上看,在雲端實現可以高質量、高效率的AI訓練與部署的高效能運算,其實是產業集約化與社會低成本創新的大勢所趨。只有把這三項技術完美融合到一起,才能鑄成智慧時代所需的數字化三叉戟。

如何熔鍊這把時代三叉戟,亞馬遜雲科技已經有了一些答案。

走向雲端:高效能運算的產業趨勢與挑戰

雲端計算與高效能運算的關係,真的只能格格不入嗎?答案可能並非如此。

根據Hyperion Research市場調查的資料來看,到2022年底將會有18.8%的HPC在雲端執行,而這個資料在2021年是12.3%,雖然大多數HPC任務依舊依賴於超算中心和本地硬體,但在雲端獲取高效能運算,可以說是產業發展的大勢所趨。在雲端獲取高效能運算,在目前階段客戶會擔心遇到一些挑戰。比如說:管理挑戰,大規模計算叢集難以建立和管理,是否能夠有快捷的部署方式和高效便捷的管理手段;能效挑戰,或者說是對雲上高效能運算的價效比考慮,如何在雲端發揮HPC的最大能效是很多使用者擔心的話題;安全挑戰,大量HPC處理的任務與資料都密不可分,有資料勢必會有資料安全的顧慮,雲端的資料安全如何交付給使用者一個放心的環境。

但從高效能運算行業發展趨勢上看,這些問題都是可以在實踐中被逐個解決的。從基礎的計算邏輯上看,雲端獲取高效能運算更加經濟實惠,並且使用者可以彈性獲取異構計算資源,真正實現計算與任務的適配。從單個節點效能上看,雲端的計算資源效能更好;而在計算叢集場景下,雲端可以讓使用者獲得線性增長的計算效能,避免算力浪費。

所以,在雲端實現高效能運算並不是不可能,反而因為雲端海量擴充套件的算力,不斷增強的但節點的計算效能,以及方便高效的算力管理手段,以及雲原生的系統及資料的安全保障,使得眾多行業的高效能運算可以得以在雲端執行。

在如何實現雲端獲取可靠HPC的探索中,亞馬遜雲科技已經實現了行業領軍級的探索。

技術融合與產業平衡:亞馬遜雲科技的高效能運算探索

在目前階段,亞馬遜雲科技已經可以提供高度可定製的 HPC 計算平臺,為使用者帶來多樣化的異構計算資源以及定製化的計算例項。尤其值得注意的是,以軟體生態豐富著稱的亞馬遜雲科技在HPC領域同樣提供了大量可用、低成本的軟體,幫助使用者解決管理與排程等領域的問題。

總體而言,亞馬遜雲科技的HPC探索呈現出兩大核心差異:晶片、雲、儲存、軟體、AI等領域的技術經驗的高度融合,以及面向行業需求與使用者痛點,進行了大量高度產業指向的軟硬體生態。

在高效能運算客戶關心的計算,網路,儲存以及應用軟體生態適配上,亞馬遜雲科技都為客戶提供了成熟的HPC相關服務保障。

在算力層,亞馬遜雲科技提供包括CPU、GPU、ARM在內的多樣化異構計算支援,以及定製化的彈性計算例項,滿足使用者在AI等HPC高發任務中的計算資源需求。

在儲存層,叢集化算力需求會導致對儲存的海量高併發訪問,這就讓儲存的效能非常關鍵。亞馬遜雲科技提供了面向高效能運算場景的儲存支撐,並且可以在雲端實現多級的檔案儲存策略,幫助使用者實現根據計算需求來彈性規劃儲存使用,進而實現降低雲端HPC的儲存成本,提升資料呼叫、管理效率。

在雲端的網路裡,亞馬遜雲科技可以為客戶提供超級計算應用程式所需的持續低延遲,高頻寬的網路環境,使用者可以採用亞馬遜雲科技推出的高達100Gbps頻寬吞吐,支援MPI的EFA(Elastic Fabric Adapter)網路卡,推出了低延遲,降低網路抖動的SRD(Scalable Reliable Datagram)協議,加速節點之間的通訊。

在軟體層,亞馬遜雲科技面向遷移、排程,包括視覺化等等HPC場景需求,提供了豐富且低成本的軟體工具。比如使用亞馬遜雲科技 ParallelCluster 可以說實現快速構建 HPC 計算環境,簡化 HPC 叢集的部署和管理。亞馬遜雲科技 Step Functions 是一項低程式碼、視覺化的工作流服務,可以幫助開發人員構建分散式應用程式、自動化 IT 和業務流程並構建資料和機器學習管道,從而降低綜合開發成本。這對於AI等領域的高效能運算任務來說非常重要。豐富、專業且低門檻的軟體生態,讓亞馬遜雲科技可以幫助高效能運算使用者節約掉巨大的軟體定製開發成本,實現產業級的高效能運算應用。

基於亞馬遜雲科技多樣化的高效能運算探索,在雲端獲取叢集化的澎湃算力已經成為可能。而這樣一種可能帶來的直接影響,就是為大規模的AI應用潮奠定基礎。

智慧晨曦:AI大航海帶來的計算浪潮

隨著預訓練大模型與AI科學計算開始成為行業主流,AI訓練與部署所需的算力開始激增,尤其是AI任務對高效能運算的依賴逐漸被放大。或許可以說,產業智慧化的晨曦逐漸綻放,必須建立在HPC的堅實算力基座上。

新藥研發、科研研究、地質勘探等結構複雜、資料量龐大的AI任務開始增多,對HPC提出了一系列全新的需求。比如計算叢集化的要求不斷提升,異構計算的能力要求更加嚴苛、資料吞吐量與吞吐效率要求不斷加強等等。而在這樣的“AI大航海”時代,如果企業和科研機構依舊廣泛採用搭建硬體計算池的方向來實現HPC,那麼顯然產業效率很低,綜合成本浪費巨大,而物理叢集從硬體採購,到安裝、部署等都需要較長的時間。對於時效性要求極高的高效能運算任務來說,顯然無法滿足其需求。

面對機器學習、深度學習以及其他AI任務帶來的算力需求,亞馬遜雲科技在雲端不僅提供了搭載企業級GPU的計算資源,同時針對機器學習和深度學習的工作特點,自主研發了相對應的晶片,並且透過雲服務的形式交付給客戶使用。目前階段,亞馬遜雲科技可以為客戶的機器學習與深度學習任務提供搭載了4000張NVIDIA A100 GPU的超大規模計算叢集,提供400 Gbps非阻塞聯網基礎設施,以及透過 FSx for Lustre 實現的高吞吐能力、低延遲儲存。而這樣規模的計算叢集,在物理超算中心中其實是很難實現的。在AI大航海時代,從雲端獲取針對機器學習、深度學習的高效能算力顯然是最合理的方案。

面向智慧時代必然高速湧起的HPC需求,亞馬遜雲科技透過產業知識與服務經驗的積累,最終將AI、HPC、雲端計算,三項明星技術融合成了一把三叉戟。這把三叉戟還將持續進化,幫助使用者在智慧化浪潮中出海遠航,在數字化田野中收穫價值。

在今年6月初的全球ISC2022大會上,亞馬遜雲科技推出了一系列針對高效能運算的雲服務,有專門針對HPC工作負載的計算例項HPC6a。經過最佳化,可高效執行計算密集型、高效能運算工作負載,如計算流體動力學、油藏建模、天氣模擬,以及有限元分析等。相對於與之相當的 Amazon EC2 基於 x86 的計算最佳化型例項,Hpc6a 例項所提供的價效比最多更高出 65%。使用 Hpc6a 例項,您可以大幅降低 HPC 工作負載的成本,同時利用 AWS 的彈性和可擴充套件性。在GPU例項上,新型例項 Amazon EC2 P4de 推出預覽版,這款例項可提供機器學習(ML)訓練和高效能運算(HPC)應用程式所需的極佳效能,例如物件檢測、語義分割、自然語言處理、地震分析和計算流體動力學等。而亞馬遜雲科技一直以來致力於發展的基於ARM的晶片Graviton系列,也在今年釋出了第三代Graviton處理器系列的最新產品Graviton3。與AWS Graviton2處理器相比,它們的計算效能提高了25%,浮點效能提高了2倍,加密工作負載效能提高了2倍。

想要了解亞馬遜雲科技在高效能運算領域的持續進化;想要明晰高效能運算如何與機器學習,真正量子計算這樣的前沿科技相結合;想要提前洞察各行業中蘊藏的計算潛力,不妨關注8月24日13:30在金茂北京威斯汀大飯店三層會議大廳 AB舉辦的“亞馬遜雲科技 HPC +雲上業務加速創新論壇”。

這場活動將匯聚來自亞馬遜雲科技與各行業的技術專家,共同梳理計算與智慧的發展軌跡,揭秘“ HPC +”時代的創新機遇。

8月24日,我們不見不散。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2910896/,如需轉載,請註明出處,否則將追究法律責任。

相關文章