編輯 | X_X
傳統超級計算機作為科學計算的核心支柱,在推動技術進步方面發揮了不可替代的作用,但隨著科學智慧時代下需求的多樣化和複雜化,其擴充套件性和能效的侷限逐漸顯現。
針對這一挑戰,微軟亞洲研究院的研究員提出了 Cloud4Science 的新正規化,以雲端計算、人工智慧和高效能運算技術的深度融合為核心,重新定義科學計算的架構,加速科學智慧的研究進展。
在此框架下,研究員們已對關鍵科學計算演算法如 Stencil、FFT、SpMV 等進行了最佳化,併成功開發了一系列創新演算法,為科學家利用雲端計算及人工智慧平臺進行科學計算和研究開闢了新的途徑。
相關工作已連續發表在 SC、PPoPP 等高效能運算與平行計算領域頂會,並獲得了 PPoPP’24 唯一最佳論文獎。
在剛剛落幕的國際超算大會 SC’24 上,最新揭曉的戈登貝爾獎獲獎應用成功突破了 E 級計算的瓶頸,標誌著超級計算機應用正式邁入下一個關鍵階段——萬 P 級計算(每秒千億億次浮點運算)。作為高效能運算(HPC)的巔峰代表,超級計算機長期以來一直是推動科學和技術進步的重要力量。
科學計算作為超級計算機的核心應用領域,利用其強大的計算能力,透過數值模擬、資料分析和數學建模,旨在解決科學、工程和技術中的複雜問題,在揭示自然規律、預測未知現象以及推動技術創新中發揮著不可或缺的作用。
然而,隨著科學智慧(AI for science)時代的到來,超級計算機在追求更高效能的同時,也面臨著一些新的挑戰:
架構碎片化:各超算系統採用不同的硬體架構和程式設計模型,科學應用需要複雜的定製化適配才能執行。這不僅限制了科學應用的多樣性,還難以兼顧傳統科學計算與智慧計算的雙重需求。
開發難度高:科學智慧時代強調多學科、多技術領域的交叉與協作。不同的超級計算機架構不僅增加了軟體開發和維護的複雜度,開發者還需要不斷重新學習並掌握跨領域的專業知識,阻礙了科學研究的靈活性和快速推進。
能耗與成本壓力:當前 E 級超算每年耗電可達上億度,未來 Z 級超算能耗可能更高。同時,系統更新換代成本巨大,應用需重新設計和部署,進一步增加了科研投入的時間和經濟成本。
「傳統科學計算的優勢在於數值求解,透過高精度計算模擬複雜的物理過程。然而,隨著問題規模的快速擴大和計算複雜度的持續攀升,單純依賴數值求解的模式難以充分釋放未來萬 P 級甚至 Z 級超算的全部潛力。」微軟亞洲研究院高階研究員李琨表示,「科學計算正在從傳統數值求解向融合知識推理的科學智慧轉型。透過將高效能運算技術與未來的 Z 級算力結合,全面支撐科學智慧時代對極限計算和智慧推理的雙向擴充套件需求,才會為更多突破性發現提供全新的可能性。」
Cloud4Science 正規化加速科學計算程序
為了應對這些挑戰,微軟亞洲研究院的研究員提出了 Cloud4Science 正規化,希望透過融合現有的雲基礎設施、人工智慧和高效能運算技術,重塑科學計算的模式。這一正規化為傳統超算正規化提供了有效的補充,也為科學智慧提供了一種更加靈活、高效且可擴充套件的解決方案。
「Cloud4Science 正規化透過將科學計算任務遷移到雲平臺或人工智慧架構上,實現了計算架構的統一,降低了科學計算的訪問門檻。」微軟亞洲研究院首席研究員曹婷表示,「這使得科研人員能夠在單一平臺上使用多種演算法和應用,同時,雲平臺和人工智慧的強大算力也將大幅提升科學計算效率,為未來的科學研究與計算應用開闢新的可能性。」
為了實現 Cloud4Science 正規化,研究員們計劃分兩個階段來推進:
第一階段是以問題為導向,從演算法角度對傳統科學計算進行遷移,確保這些計算任務能夠在雲端計算或人工智慧硬體架構上順利執行。這一階段的核心任務是將經典的科學計算演算法,如 Stencil、FFT(快速傅立葉變換)、SpMV(稀疏矩陣-向量乘法)等,轉換為基於矩陣乘法的計算模式,以便充分利用雲端計算和人工智慧的強大計算能力。透過這一轉化,傳統科學計算演算法的效能得以顯著提升,同時大幅降低了科學應用對硬體適配的複雜性,併為下一步科學計算的智慧化奠定了基礎。
第二階段的目標是推動科學計算演算法與人工智慧的深度融合。傳統的科學計算演算法更注重數值計算,而科學智慧則強調推理能力的提升。科學計算模型與大語言模型雖然在某些方面可以互相借鑑,但二者之間存在顯著差異。科學計算模型通常包含大量的物理資訊和生物資訊,這些專業知識需要被有效地整合到演算法設計中。因此,這一階段的任務是設計融合傳統科學計算模型與人工智慧技術的創新解決方案,透過人工智慧技術有效整合領域知識、生成洞見並促進科學創新,充分利用雲原生和人工智慧原生架構的優勢,進一步推動 Cloud4Science 正規化的發展。
傳統科學演算法向雲端計算與人工智慧硬體的無縫遷移
目前,第一階段的研究目標已經基本完成,即實現傳統科學計算演算法向雲端計算和人工智慧硬體的無縫遷移。
研究員們從 Stencil 演算法入手,設計了全新的演算法 Jigsaw 和 ConvStencil,將 Stencil 演算法向量化並重新張量化成矩陣乘法模式,使 Stencil 演算法成功對映到 Tensor Core 等人工智慧加速器硬體單元。
隨後,研究員們又引入了人工智慧驅動的低秩適應(Low-Rank Approximation,LoRA)技術,進一步最佳化 Stencil 效能,推出了 LoRAStencil 以及融合三種經典演算法的 FlashFFTStencil,這些創新讓多種科學計算演算法能夠更高效地部署在人工智慧加速單元上,實現效能的顯著提升並同時降低了硬體適配的複雜性。
擴充套件矩陣計算邊界,連線科學與 AI 硬體
為突破科學計算的效能瓶頸,研究員們提出了 ConvStencil [1],透過將傳統的科學計算演算法對映為矩陣乘法,進一步擴充套件了矩陣計算的應用邊界,為科學計算與 AI 硬體的高效協同奠定了堅實基礎。
基於 Stencil 演算法與人工智慧領域廣泛應用的卷積計算模式有著相似之處,研究員們專門開發了一套針對 GPU Tensor Core 的最佳化演算法,使得其能夠充分利用 Tensor Core 強大的矩陣計算能力。
透過引入佈局轉換與衝突消除機制,ConvStencil 不僅顯著提升了科學計算與雲端計算及人工智慧硬體的相容性,還促進了科學計算從傳統的 CPU 計算向現代 GPU 計算的順利過渡。
為了實現記憶體訪問效率的大幅提高,研究員們在 ConvStencil 的基礎上設計了 LoRAStencil [4],透過融入 LoRA 技術,巧妙地結合了資料的低秩特徵與計算需求。利用分解權重矩陣,最佳化資料的載入與複用過程,LoRAStencil 有效減少了不必要的記憶體訪問,解決了維度殘差問題。
實驗評估顯示,LoRAStencil 相比現有技術,效能提升最高可達2.16倍。LoRAStencil 為在 Tensor Core 單元上實現高效的張量化 Stencil 計算開闢了新的途徑,使其在科學計算中能發揮更大作用。
儘管 Tensor Core 單元在處理人工智慧任務時表現出色,但在處理如 Stencil 這樣涉及大量稀疏資料的高效能運算演算法時,仍面臨計算資源利用率不高和記憶體頻寬受限的問題。
為了解決這些挑戰,研究員們創造性地將 Stencil、FFT 和矩陣乘法三種經典科學計算演算法融為一體,提出了更為高效的 FlashFFTStencil 計算系統 [3]。
實驗結果證實,FlashFFTStencil 實現了無稀疏性的邊界轉換,其效能較現有最先進的技術平均提升了 2.57 倍。
FlashFFTStencil 在實現了多種科學計算演算法統一的同時,還成功地將這些演算法與 Tensor Core 單元等先進的人工智慧硬體連線起來,為科學計算的未來發展提供了新的可能性。
時空資料向量對齊,提升 CPU 計算效率
Jigsaw 演算法 [5] 專注於 Stencil 演算法的向量化,透過採用基於通道的蝶形向量化、基於奇異值分解的維度展平(SVD-based Dimension Flattening)技術以及基於迭代的時間合併策略,有效解決了空間和時間維度上的資料對齊衝突(Data Alignment Conflict, DAC)問題,大幅提升了科學計算在 CPU 上的效率。
實驗結果顯示,在多種測試環境中,Jigsaw 相對於當前最先進的技術平均實現了2.31倍的加速效果,適用於廣泛的 Stencil 核心。
在此基礎上,研究員們還對另一種重要的科學計算演算法——稀疏矩陣-向量乘(Sparse Matrix-Vector Multiplication, SpMV)進行了深入最佳化,提出了 VNEC 演算法 [6]。
這是一種創新的 SpMV 儲存格式,旨在最佳化資料區域性性和向量化操作,同時緩解現有演算法的侷限性。VNEC 透過剔除冗餘列和改進資料區域性性,大幅度減少了記憶體訪問開銷,增強了向量計算的效率。
實驗表明,在多核處理器環境下,VNEC 在 x86 CPU 上相較於標準 MKL SpMV 例程最高實現了 6.94 倍(平均 2.10 倍)的加速,在 ARM CPU 上的加速比最高可達 5.92 倍(平均 1.73 倍)。
由於 VNEC 格式轉換的預處理成本較低,特別適用於實際的迭代應用場景,展現出了極高的實用價值。
Cloud4Science 正規化在量子化學中的實踐探索
為了驗證 Cloud4Science 正規化能否為科學計算帶來更好的效能提升,微軟亞洲研究院的研究員們與微軟研究院科學智慧中心(Microsoft Research AI for Science)團隊合作,共同開發了一種端到端的最佳化編譯器 EPT(Elastic Parallel Transformation)[2]。利用彈性並行轉換技術,EPT 可以把傳統的科學計算演算法,特別是從頭算量子化學計算,自動適配至 GPU 架構。因此,EPT 能夠將複雜的量子化學問題分解為適合並行處理的單元,最佳化任務的劃分粒度,並生成專為 GPU 架構最佳化的高效計算核心。
透過在多種 GPU 硬體(如 NVIDIA V100、A6000、A100 等)上對13種具有代表性的分子進行測試,實驗結果顯示,EPT 在保證從頭算精度的前提下,相較於現有的頂級 CPU 和 GPU 解決方案,效能分別提升了高達34.90倍和9.89倍。
透過 Cloud4Science 正規化,量子化學研究的計算效率和精度得到了顯著提升,這為加速新材料開發、藥物設計和基礎科學探索提供了堅實的技術基礎。
Cloud4Science 正規化推動 HPC 領域變革,加速科學研究發現
在科學研究邁向智慧時代的程序中,矩陣計算正逐漸成為連線傳統數值計算與科學智慧的關鍵橋樑,而 Cloud4Science 正規化憑藉其 Z 級計算潛力,不但為科學在時間和空間尺度上帶來了質的飛躍的可能,同時也為科學計算向智慧化與推理驅動方向的演進注入了動力。
以量子化學為例,Cloud4Science 不僅能縮短計算週期,將複雜分子相互作用的模擬時間從數年壓縮至數週甚至數天,還能透過矩陣計算與 AI 推理的融合,使得系統能夠基於海量計算資料進行模式識別與智慧推理,例如預測藥物分子與蛋白靶點的相互作用趨勢,自動發現可能的抗性突變路徑。
正如個人計算機從單機時代邁入雲端計算時代,徹底革新了資訊處理的廣度與效率,未來 Cloud4Science 正規化的成功應用也有望在人工智慧時代為高效能科學計算帶來新的變革。
透過融合雲端計算的可擴充套件性、AI 的智慧決策能力以及高效能運算技術,Cloud4Science 將在未來邁向 Z 級計算的過程中,實現科學計算在極限求解與智慧推理兩大方向的雙向突破,賦予科學智慧更強的靈活性、更高的效率與更廣泛的可擴充套件性,為科學研究帶來新的創新動力與發展空間。
「Cloud4Science 新正規化將顯著降低高效能運算基礎設施的開發成本,並提升其對科研人員的易用性。」曹婷表示,「尤其是對於那些資源有限的小型研究團隊或初創企業而言,這一正規化將賦能他們獲取 E 級乃至萬 P 級科學計算的潛力。這意味著更多的科研工作者可以參與到之前僅限於頂尖機構和大型企業才能涉足的前沿科學計算研究中,極大地拓寬了科學研究的邊界,加速科學發現的步伐。」
相關文獻
1. [PPoPP'24, [Best Paper Award]] Yuetao Chen, Kun Li *, Yuhao Wang, Donglin Bai, Lei Wang, Lingxiao Ma, Liang Yuan, Yunquan Zhang, Ting Cao, Mao Yang. ConvStencil: Transform Stencil Computation to Matrix Multiplication on Tensor Cores.
2. [To be appeared] Tuowei Wang, Kun Li *, Donglin Bai, Fusong Ju, Leo Xia, Ju Ren, Yaoxue Zhang, Ting Cao, Mao Yang. Matryoshka: Optimization of Dynamic Diverse Quantum Chemistry Systems via Elastic Parallelism Transformation.
https://arxiv.org/abs/2412.13203
3. [PPoPP'25] Haozhi Han, Kun Li *, Wei Cui, Donglin Bai, Yiwei Zhang, Liang Yuan, Yifeng Chen, Yunquan Zhang, Ting Cao, Mao Yang. FlashFFTStencil: Bridging Fast Fourier Transforms to Memory-Efficient Stencil Computations on Tensor Core Units.
4. [SC'24] Yiwei Zhang, Kun Li *, Liang Yuan, Jiawen Cheng, Yunquan Zhang, Ting Cao, Mao Yang. LoRAStencil: Low-Rank Adaptation of Stencil Computation on Tensor Cores.
https://doi.org/10.1109/SC41406.2024.00059
5. [PPoPP'25] Yiwei Zhang, Kun Li *, Liang Yuan, Haozhi Han, Yunquan Zhang, Ting Cao, Mao Yang. Jigsaw: Toward Conflict-free Vectorized Stencil Computation by Tessellating Swizzled Registers.
6. [IPDPS'24] Luhan Wang, Haipeng Jia, Lei xu, Cunyang Wei, Kun Li , Xianmeng Jiang, Yunquan Zhang. VNEC: A Vectorized Non-Empty Column Format for SpMV on CPUs.