華為雲亮相KubeCon EU 2024，以持續開源創新開啟智慧時代

华为云开发者联盟發表於2024-03-26

原文網址 : https://www.cnblogs.com/huaweiyun/p/18096780

本文分享自華為雲社群《華為雲亮相KubeCon EU 2024，以持續開源創新開啟智慧時代》，作者：華為雲頭條。

近日，在巴黎舉辦的雲原生頂級峰會KubeCon EU 2024上，華為雲首席架構師顧炯炯在“Cloud Native x AI：以持續開源創新開啟智慧時代”的主題演講中指出，雲原生和AI技術的融合，是推動產業深刻變革的關鍵所在。華為雲將持續進行開源創新，與開發者共啟智慧時代。

華為雲首席架構師顧炯炯發表演講

AI對於雲原生正規化提出關鍵挑戰

在過去的幾年裡，雲原生徹底改變了傳統的IT系統，催化了網際網路和政府服務等領域的數字飛躍。雲原生正規化帶來的新的可能性，例如閃電般的快速銷售和基於微服務治理的敏捷應用DevOps，已經深入人心。同時，人工智慧的快速發展和廣泛採用，包括大規模模型，已經成為行業智慧的跳動心臟。

根據Epoch 2023年的調研資料，基礎模型所需的計算能力每18個月就會增長10倍，是摩爾定理揭示的通用計算能力增長率的5倍。AI帶來的新摩爾定律和大規模AI模型的主導地位對雲原生正規化提出了挑戰，顧炯炯總結了其中關鍵的4點：首先，低GPU/NPU平均利用率導致AI訓練和推理的高成本。其次，大模型訓練叢集頻繁的失敗率限制了訓練效率。第三，大規模模型的複雜配置導致AI開發門檻高。第四，大規模的AI推理部署面臨著不可預測的終端使用者訪問延遲和資料隱私問題的風險。

華為雲AI創新為開發者迎接挑戰提供思路

隨著AI模型變得越來越大，對計算能力的需求也呈指數級增長。這種需求不僅給雲原生技術帶來了挑戰，也為業界提供了創新機遇。顧炯炯分享了一些華為雲在AI創新方面的故事，為開發者解決這些挑戰提供了參考。

在雲原生邊緣計算平臺KubeEdge的基礎上，華為雲實現了一個雲原生多機器人排程管理平臺。使用者可以透過自然語言命令在雲端輸入任務指令，由系統協調邊緣的多個機器人共同協作完成複雜任務。為了克服自然語言命令理解、大量機器人高效排程管理以及跨型別機器人訪問管理的三個挑戰，該系統採用了雲端、邊緣節點和機器人三個部分的架構，透過大模型執行自然語言命令，並進行流量預測、任務分配和路由規劃。這一架構顯著提高了機器人平臺的靈活性，管理效率提升25%，系統部署週期縮短30%，新機器人的部署時間從月級縮短到天級。

中國某頂級內容分享社群，每月活躍使用者超過1億。它的核心服務之一是主頁上的推薦功能。推薦模型有近1000億個引數。訓練叢集有數千個計算節點。一個訓練作業需要數百個引數伺服器和worker。因此，該社群對最優拓撲排程、高效能、高吞吐量有著強烈的需求。開源專案Volcano可以更好地支援在Kubernetes上執行的AI/ML工作負載，並提供了一系列作業管理和高階排程策略。Volcano專案引入了拓撲感知排程、裝箱、SLA感知排程等演算法，幫助社群將整體訓練效能提升了20%，運維複雜度也大大降低。

Serverless AI引領雲原生髮展趨勢

如何高效、穩定地執行AI應用，同時降低運營成本，成為擺在眾多企業和開發者面前的一大挑戰。為此，華為雲總結了雲原生AI平臺的關鍵要求，提出了一種全新的雲原生AI平臺理念——Serverless AI。

顧炯炯提到，從開發者的視角來看，Serverless AI致力於智慧地推薦並行策略，讓複雜的訓練和推理任務變得輕而易舉。它提供自適應的GPU/NPU自動擴充套件功能，能夠根據工作負載的實時變化動態調整資源分配，確保任務的高效執行。同時，Serverless AI還維護著一個無故障的GPU/NPU叢集，讓開發者無需擔心硬體故障帶來的中斷風險。更值得一提的是，該平臺保持與主流AI框架的相容性，讓開發者能夠無縫整合現有的AI工具和模型。

對於雲服務提供商而言，Serverless AI同樣具有深遠的意義。它不僅能夠提高GPU/NPU的利用率，使訓練、推理和開發混合工作負載得以高效執行，還能透過最佳化能效實現綠色計算，降低能耗成本。此外，Serverless AI平臺還能實現跨多個租戶的空間和時間GPU/NPU共享，提高資源的複用率。最重要的是，它為訓練和推理任務提供了有保證的QoS和SLA，確保了服務質量和穩定性。

分論壇上，華為雲技術專家提到，Kubernetes 上執行 AI/ML 工作負載的使用量不斷增加，許多公司在分佈於資料中心和各種 GPU 型別的多個 Kubernetes 叢集上構建雲原生 AI 平臺。使用Karmada和Volcano，可輕鬆實現多叢集的GPU工作負載智慧排程、叢集故障轉移支援，在保障叢集內和跨叢集的兩級排程一致性和效率，並平衡系統整體資源的利用率和不同優先順序工作負載的 QoS，以應對大規模、異構的 GPU 環境管理中面臨的挑戰。

Karmada為多雲和混合雲場景中的多叢集應用管理提供即時可用的自動化管理，越來越多的使用者在生產環境中使用Karmada構建靈活高效的解決方案。Karmada已於2023年正式升級為CNCF孵化專案，期待與更多夥伴與開發者們共建繁榮社群。

針對AI分散式訓練和大資料場景，Volcano Gang Scheduling解決了分散式訓練任務中的無休止等待和死鎖問題, 任務拓撲和IO感知的排程，將分散式訓練的傳輸延遲降至最低，效能提升31%，minResources解決了高併發場景下Spark driver和executor之間的資源競爭問題，合理規劃了並行度，效能提升39.9%。

“雲原生技術的敏捷性和異構AI計算平臺的創新性，將是提升AI生產力的關鍵。” 顧炯炯談到，未來，華為雲將持續致力於開源創新，與業界同仁、夥伴共同開啟智慧時代的新篇章。

點選關注，第一時間瞭解華為雲新鮮技術~

混合雲管理平臺2.0 開啟智慧管雲新時代
2021-12-15
《泛智慧開啟下一代雲時代：智慧加速、效能提升、創新湧現》IDC白皮書
2023-09-13
Redis開源社群持續壯大，華為云為Valkey專案注入新的活力
2024-05-06
Redis
誰說信創無創新，中國電子雲開啟“信創+”時代
2021-05-05
Cloud Native Weekly | KubeCon首登中國，華為雲亮相KubeCon 2018，微軟雲服務又罷工
2018-11-26
Cloud微軟
重磅升級 | 混合雲管理平臺2.0 開啟智慧管雲新時代
2021-12-15
大模型開啟人工智慧的新時代
2023-11-01
大模型人工智慧
HAS2024：華為雲以系統性創新加速千行萬業智慧化升級
2024-04-19
數字先鋒 | “翼”鍵上雲，開啟智慧醫療新時代！
2023-11-24
CodeArts持續發力輸出，華為雲重塑軟體開發
2023-05-12
智慧計算，“芯”時代的華為雲
2019-01-28
在雲中利用開源軟體進行開發以提高創新能力
2021-07-29
華為下場，全屋智慧開啟新戰爭
2021-01-06
場景化元件開源，融雲持續回饋開源生態
2022-05-03
元件
華為雲持續加碼生態，攜手夥伴共建智慧世界
2018-12-29
智慧會議時代用這招？看MAXHUB以技術創新開啟高效會議模式
2020-10-15
模式
【HDC 2024】華為雲開發者聯盟驅動應用創新，賦能開發者成長
2024-06-23
youbox雲桌面，開啟雲辦公時代
2020-08-27
智慧養老認證 app：開啟便捷養老新時代
2024-10-17
APP
軟通動力劉會福：與華為雲一起持續創新商業共贏
2022-06-16
AutoCAD 2024：高效繪圖設計，開啟新時代 mac/win版
2023-11-07
繪圖Mac
華為云云原生解決方案再獲行業大獎，持續引領雲原生 2.0 時代
2020-12-24
行業
AI for Science，開啟智慧科學時代！
2024-02-01
AI
鑿開資料冰層，透出智慧時代的光：華為雲與開發者的結伴旅行
2022-06-15
華為雲亮相LEAP科技展，攜手沙特共創智慧新高度
2024-03-11
雲知聲，以技術為媒，開啟智慧醫療新模式
2022-06-09
模式
華為雲助力鞋業轉型升級打造智慧零售新時代
2018-08-21
智慧化時代如何做好持續整合--智慧構建與智慧測試雙引擎 - 朱華亮
2020-06-04
智慧化時代開啟，風變程式設計為智慧辦公助力
2023-05-15
程式設計
SAP開源的持續整合-持續交付的解決方案
2019-11-07
解讀 KubeCon EU 2019 應用管理領域的新看點
2019-05-30
華為雲+AI，視訊分析全面進入智慧時代
2018-12-10
AI
華為雲資料庫GaussDB持續技術創新，助推企業釋放數字生產力
2022-11-24
資料庫
華為軟體開發雲如何為數字經濟時代賦能？
2018-12-27
【持續更新】創新實訓
2024-05-29
Serverless 底座的持續創新
2022-03-01
Server
開創萬兆組網時代新華三商用萬兆解決方案解讀
2019-05-10
尋找智慧精靈：出海與創新時代的開發者之需
2022-05-25

華為雲亮相KubeCon EU 2024，以持續開源創新開啟智慧時代

AI對於雲原生正規化提出關鍵挑戰

華為雲AI創新為開發者迎接挑戰提供思路

Serverless AI引領雲原生髮展趨勢

相關文章