玩轉雲端 | 算力基礎設施升級,看天翼雲紫金DPU顯身手!

天翼雲開發者社群發表於2023-04-20

數字時代下,算力成為新的核心生產力,傳統以 CPU為核心的架構難以滿足新場景下快速增長的算力需求,具備軟硬加速能力的DPU得以出現並快速發展。天翼雲憑藉領先的技術和豐富的應用實踐自研 紫金 DPU, 打造為雲而生的全新一代雲端計算體系結構,助力算力基礎設施升級,賦能海量算力高效釋放。

 

傳統資料中心裡,所有的資料處理都依賴於 CPU的通用計算能力,近10年來,資料頻寬增長超過10倍,然而因為摩爾定律的失效,CPU的主頻幾乎沒有增長,給算力基礎設施的發展帶來了極大挑戰。

 

 

 

雲端計算要實現虛擬化管理需要依託眾多虛擬化和管理元件,這會大量佔據伺服器主機的 CPU和記憶體資源,帶來巨大的算力消耗,形成高額的算力稅。然而即便如此,基於CPU通用計算能力、以純軟體來實現的虛擬化元件,整體效能仍無法滿足客戶日益增長的資料處理需求。且國產化晶片架構、作業系統種類繁多,複雜的適配工作會耗費大量的人力和時間成本,新型高效能運算架構勢在必行。

 

天翼雲作為雲服務國家隊,積極應對算力挑戰,自研紫金 DPU,透過虛擬化元件解除安裝、多種業務硬體加速以及自研三棧合一高效能網路協議,打造 高效能、低延時、高可靠性並且可大規模部署 的環境,助力算力基礎設施升級。

 

 

 

天翼雲紫金 DPU採用SOC+FPGA架構,依託FPGA強大的處理效能和靈活的可程式設計能力,對多種應用進行加速。

 

 

 

對於客戶使用的虛擬網路和儲存裝置,其後端都是透過 DPU硬體來實現。天翼雲紫金DPU透過硬體DMA提供超強效能和超低時延;透過硬體模擬提供數以千計的pvf裝置和queue資源, 充分滿足虛機容器等場景下大量虛擬裝置的應用需求。

 

對於虛擬網路、虛擬儲存業務,天翼雲實現了 DPU解除安裝加速。虛擬網路的控制面,包括vnet的agent和OVS的控制面,以及資料面Slowpath都執行在DPU的SOC上;慢速路徑處理後生成的fastPath,則全部被解除安裝到DPU的硬體上。除首包需要上送到軟體之外,後續報文都可以 直接透過硬體處理來進行加速。

 

對於儲存業務,控制面的建鏈也是透過 DPU的SOC來實現的。SOC完成建鏈後,會將連線資訊以及雲盤的後設資料資訊等都更新到FPGA硬體裡面,之後的儲存IO硬體能夠直接處理,無需再透過SOC。除了支援基礎的儲存IO解除安裝加速外,紫金DPU還支援部分應用加速,例如EC糾刪碼計算、資料壓縮、儲存object hash值計算等操作。透過硬體解除安裝加速,天翼雲的 儲存業務可以為客戶提供極-致的效能。

 

此外,天翼雲還開創性的推出三棧合一的傳輸層網路協議棧,即 SF-Stack,Super fusion超融合協議棧,在底層提供統一的傳輸層介面,支援傳輸協議的動態選擇和切換,上層應用只需要關注業務邏輯,無需關注傳輸層,做到簡單易用、超高效能、超高可靠。AZ內資料傳輸採用RDMA傳輸協議,跨AZ的傳輸首-選使用者態的TCP協議,實現極-致效能,同時該協議還保留了 可靠性更高的核心態 TCP,作為故障發生時的最後兜底手段。

 

最後,依託於 DPU的物理隔離,天翼雲紫金DPU將虛擬化元件和DPU一起作為一個整體,實現了不同算力、不同架構、不同系統即插即用,支援市面上大多數不同架構的主流晶片, 真正做到了一雲多芯, 助推國產算力基礎設施生態發展。

 

 

 

依託全新的紫金架構,天翼雲實現了伺服器虛擬化接近零損耗,助力算力全面釋放,推動整個算力基礎設施運營效率大幅提升,為客戶帶來更優的使用體驗。

 

在虛擬網路轉發方面,透過 DPU解除安裝加速,曾經需要十餘個宿主機CPU才能實現的2000萬pps提升至4000多萬, 提升了超 100%;

 

在儲存方面,透過硬體 RDMA加速,配合天翼雲自研擁塞控制演算法,IOPS能力從60萬提升至200萬, 提升了超 200%;

 

延方面,紫金 DPU使網路時延降到了原來的 四分之一。

 

在數字經濟飛速發展的當下, DPU作為新的藍海賽道,具有巨大的探索空間及應用價值。天翼雲將繼續堅持科技創新,挖掘DPU的更多潛力與可能,推動資料中心向高效率、高擴充套件、高頻寬、高靈活性發展,為數字中國建設鑄牢雲底座。

 

 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70014251/viewspace-2947144/,如需轉載,請註明出處,否則將追究法律責任。

相關文章