AI 為先的時代,企業如何深度用雲?

支付寶技術團隊發表於2023-11-10

「又一年雲棲,SOFAStack 走向雲原生深處。」

SOFAStack 5.0 與螞蟻集團程式碼大模型 CodeFuse 全面融合,涵蓋設計、研發、測試、運維等領域,提供從領域建模到智慧運維的端到端 Copilot 產品解決方案,為企業打造新一代 AI 雲原生 PaaS 平臺。

*以下摘自螞蟻集團數字科技事業群雲原生科技產品總監馬振雄在2023雲棲大會的分享:

首先,自我介紹 SOFAStack 是什麼 ?

大家都知道螞蟻數字化三件套:mPaaS、SOFAStack 和 OceanBase。

以飯店為例,如果把業務比作一盤菜,雲端計算是水電煤這樣的基礎資源,資料是食材和調料,OceanBase 是一個能把食材資料做管理儲存和查詢計算的倉庫,那麼 SOFAStack 則像一個廚房,把食材和調料做高效的烹飪、切割以及裝盤,將食材變成食物。mPaaS 更多像是飯店的前廳,幫助客戶更好地獲客、點餐、用餐以及結賬,完成客戶對客介面的完整體驗。這就是螞蟻數字三件套彼此之間的關係。

經過一系列實踐,我們也觀察到目前企業應用上雲出現了三大趨勢——更異構、更智慧、更經濟。今天的主題主要圍繞這三大趨勢展開,與大家分享螞蟻雲原生 PaaS 在核心繫統上雲的實踐。

企業上雲三大趨勢:更異構

從網際網路雲原生企業,到越來越多傳統行業,都在嘗試核心系統上雲,甚至已經不滿足於集中式中心化的雲,而是需要更輕量的小型雲,或者邊緣節點的雲。在面對雲的形態更加異構複雜的情況下,企業會更關注雲背後統一平滑遷移的能力。

這是雲原生第一個趨勢——更異構,包含了資源異構、應用異構以及雲形態異構。

  • 資源異構

目前有 70% 到 80% 的存量應用仍跑在雲外虛擬化的資源上,還有一些自研雲和外採雲等多雲資源,這背後需要將不同資源進行統一納管。

傳統做法是先用容器遮蔽異構資源,在傳統的虛擬化之上疊加一層容器。因此資源沒有辦法充分做到統一精細化排程,整個資源利用率無法做到全部,並且運維複雜度直線提升,這也直接導致虛擬和容器在網路和儲存方面,難以實現統一標準化管理。

所以我們在實踐過程中, 定義出下一代更符合雲原生高效率的計算架構,透過把容器和虛擬化做統一拉平,統一排程。

同時,對於 AI 時代的到來,算力和 GPU 資源的消耗和需求是空前絕後,但是絕大部分企業在儲備 GPU 算力過程當中,資源利用率基本上平均水位在 10% 到 30% 左右。這也意味著,企業需要對 GPU 精細化管理做統一的虛擬化和池化。

以往,傳統 GPU 虛擬化只能做到物理卡的視訊記憶體切分,比較粗粒度 GPU 的排程。SOFA 能夠進一步將視訊記憶體和算力兩個維度做精細化切分,切分到最低顆粒度的排程,滿足不同業務對於算力和視訊記憶體的要求,同時對於不同業務需要,可以做到統一的精細化並行排程。

另外,傳統的應用可能跑在虛擬機器,新型的應用跑在容器,我們也支援 GPU 的算力和視訊記憶體能繫結虛機和容器兩種不同的形態,支援應用可以更平滑的遷移。

  • 應用異構

隨著越來越多傳統行業把核心系統進行上雲,未來將面臨著更多雲下存量異構的應用上雲,這些應用的特徵在於開發框架不一致,通訊協議不一致,程式語言以及所需部署資源的形態也都不一致,這些存量的系統稱之為「歷史包袱」,如果直接將「歷史包袱」統一作為應用上雲,將面對很多挑戰。

首先新老系統之間無法在統一的管控介面上進行管控治理,意味著需要兩套平臺來管控新老應用。

其次,如果讓應用改造成雲原生的方式去上雲,意味著需要相當大的改造成本,把單體式的應用,改造成雲原生或微服務架構。因此我們需要一個更平滑、更輕量的方式,幫助企業的「歷史包袱」順利上雲。

最後,即使改造成微服務之後,仍然面臨著是不是要進一步將整個應用架構和框架能力做進一步解耦。

以螞蟻集團為例,有成千上萬個應用,這些應用都改造成了微服務的架構,但是螞蟻橫向基礎設施團隊,負責整個雲原生的基礎設施,他們需要將業務部門背後的幾千個應用統一打包釋出部署,配合底盤能力的升級,完成應用的變更,這對所有業務部門造成打擾,並且帶來的變更故障風險。

基於螞蟻的實踐,透過將所有微服務的應用進一步升級成 Mesh 化的服務網格應用,透過植入 Mesh 程式設計的形式,我們將微服務耦合在應用裡的 SDK 邏輯,下沉到服務網格里的程式設計,實現了應用和底層框架能力的解耦。

透過這種方式,能夠在業務部門無感的同時,橫向基礎設施團隊能夠高效進行框架能力升級。以往,我們一年只能做一到兩次升級,隨著全面 Mesh 化後,演變為一個月能夠做十幾次甚至幾十次底盤能力和框架能力的升級,極大提升了企業的組織效率。

Mesh 在幫助我們進行應用改造的同時,也能夠進一步支援平滑的遷移。應用在接入Mesh 過程當中,沒有接入 Mesh 和接入 Mesh 的應用可以平滑通訊,在同一個平臺上進行管控和服務的治理。

  • 雲形態的異構

剛才提到的越來越多傳統行業不滿足於建一些中心化的大型雲,需要在周圍邊緣的節點建立一些小型的雲,這些雲需要輕量化的方式,但是需要跟中心雲統一通訊協同和統一納管。

當我們嘗試去大力發展邊緣業務的同時,隨著邊緣裝置增多,邊緣業務逐漸複雜,意味著傳統中心化的雲端計算計算儲存網路模型,已經不太適合於邊緣業務節點對於時效、對於容量和算力的要求。

其次,對於邊緣形態業務的豐富,包括邊緣的智慧,邊緣的實時計算,邊緣的分析等等這些新興業務的誕生,意味著邊緣雲背後異構業務統一運維複雜度也在上升。對於中心雲、邊緣雲、端,這三個節點如何進行統一的資源管控和應用管控,帶來極大挑戰。

對此,螞蟻的實踐是提出了統一的雲邊協同架構。核心準則是:雲端統一管控,邊緣端在弱網和斷網的情況下自治,保證穩定性和業務的延續。

企業上雲三大趨勢:更智慧

大模型和 AIGC 都在尋找應用場景,如果大模型是非常強勁的發動機,客戶需要的是裝有這臺強勁發動機背後的一輛寶馬,也就是真正能讓發揮作用的場景。

螞蟻認為在研發效能領域,有著非常好的大模型落地場景,因為大模型和 AIGC 技術可以為架構師、開發人員、測試人員帶來結構性和顛覆性的研發模式和測試模式的重構,帶來研發和測試效率的提升。

螞蟻自研 340 億引數級別 CodeFuse 程式碼大模型,支援 JavaScript、Python、Go、C++ 等 40 多種程式語言。在 HumanEval 評測中,CodeFuse 得分 74.4%,超過 GPT-4(67%)的成績。

本次 SOFAStack5.0 升級,CodeFuse 已經與 SOFA 產品線全面融合,透過人機互動助手提升日常程式碼研發、測試、運維過程中的效率和質量。對企業而言,可以顯著提升研發效能,降低總體成本。

在運維方面,核心系統上雲背後,穩定性要求非常高,最重要也是最核心是兩大風險敞口:

  • 變更,行業普遍認為,75% 甚至 80% 的故障都是由變更引起,變更永遠是最大的罪魁禍首。如何透過智慧化的能力,進一步降低變更所帶來的故障風險?這是我們需要思考的首要原則。

  • 硬體,從以前核心繫統承載主機系統的穩定,到開始嘗試往去 IOA 的方式落到雲,落到分散式 X86 叢集,這意味著硬體穩定性的下降,同時也代表著故障不可避免,在故障不可避免的前提下,如何提高發現問題、定位問題以及解決問題的效率,這是我們思考的第二個核心原則。

對於變更而言,螞蟻有完整的變更三板斧:可監控,可灰度,可回滾。這九個字,包含著更復雜變更前置和後置的校驗。這背後運用到大量的智慧化和自動化能力,幫助運維人員進一步提效,完成變更風險的防控。

另外,對於硬體風險既然不可避免,如何去提高故障應急效率,為此螞蟻沉澱的體系是 1-5-10 的體系,即 1 分鐘發現故障,5 分鐘定位故障的原因,再到 10 分鐘恢復故障,完成故障的止血和恢復。

為此,我們升級了螞蟻 SRE 技術風險體系與故障應急體系,透過智慧化能力升級,完成智慧的監控、智慧的降噪,智慧的運維,智慧異常檢測,智慧的根因定位,再到智慧的自愈等等。

企業上雲三大趨勢:更經濟

任何時候,降本仍然是每個行業追求的目標。同時對於 2030「碳達峰」以及 2060「碳中和」來說,更需要思考在雲原生髮展到未來的階段,如何進一步進行綠色減排?整個雲端計算爆發期給整個社會和企業帶來不可避免的能耗問題,應該在哪個環節嘗試去做一些減排和降本的工作?

我們認為,雲端計算和雲原生未來的趨勢重點應該放在算力的應用階段。

為此,螞蟻定義了根技術之一的綠色計算,透過綠色計算背後的三個核心技術——在離線混部、雲原生分時排程,以及 AI 智慧彈性容量,能夠幫助更多企業進一步降本減排。

透過綠色計算的實踐,我們在過去幾年從以前的機房資源利用率 9% 提升了 4 倍,到接近 40%,同時每年節省約 600 萬度的電,包括前幾年已經完成超過 1600 噸碳排放,無論是從資源利用率提升,還是到節能減排,都做出了不錯的成效。

對於在離線混部而言,面對的挑戰是資源利用率低效,以前離線的業務和線上的業務是分開部署。我們透過在離線的混部,白天密集型計算型消耗的線上業務,再到晚上離線資料跑批的業務進行統一的混合部署,提升部署密度的同時,加強在不同級別,包括 OS 核心隔離,保證資源穩定性的同時,透過錯峰混部方式提升資源利用率。

此外,我們還進一步實踐了雲原生分時排程,分時排程背後核心原理是把整個應用分成執行態和保活態。執行態是完整熱的狀態,全功耗執行,保活態是以更低功耗、更低資源部署的要求穩定執行,但它可以非常快速地轉化成執行形態,我們稱之為溫的狀態。這意味著溫可以快速實時地一鍵轉換成執行態,同時資源部署要求非常低,意味著可以用更低的資源消耗,同時去管理更多錯峰的線上業務。

最後對於容量風險,很多時候會發現,除了變更帶來的故障風險,其實容量不可預測也會帶來很多的故障或者風險。

透過智慧 AI 模型,在事前透過持續等不同基線資料分析,能夠更快、更早地識別容量風險;同時,透過智慧 AI 模型去實現更智慧的彈性伸縮演算法,從被動式響應式的擴縮容,變成預測式前置性的擴縮容。

基於更異構、更智慧、更經濟三個趨勢背後一些洞察、思考和實踐,我們升級了螞蟻雲原生 SOFAStack 整個的 PaaS,SOFAStack5.0 升級包含四個內涵——智慧、可信、綠色以及多雲。

透過綠色計算能力,讓 SOFAStack 能夠減排降本,變得更綠色;透過大模型 AIGC技術,從研發到測試再到運維,全面升級智慧化,讓 SOFAStack 變得更智慧;透過對 GPU 和 CPU 的混合排程,以及定義下一代雲原生計算架構,讓 SOFAStack 變得更多雲;透過對計算環境、軟體供應鏈以及全方面的安全能力內建的增強,讓 SOFAStack 變得更可信。

SOFAStack 源於支付寶,從服務金融行業中成長,正進一步走向全行業,服務更多的企業和客戶,助力完成雲原生化的升級,力爭 做 AI 時代最好的雲原生應用的作業系統及底座


來自 “ ITPUB部落格 ” ,連結:https://blog.itpub.net/69904796/viewspace-2994655/,如需轉載,請註明出處,否則將追究法律責任。

相關文章