聚焦 DPU 技術研發與創新 天翼雲打造全新一代雲端計算體系結構

天翼雲開發者社群發表於2022-10-18

9月2日,第二屆SmartNIC&DPU技術創新峰會在北京召開。本次大會由江蘇省未來網路創新研究院和SDNLAB聯合行業技術先鋒力量、產業典型應用企業共同發起,圍繞SmartNIC/DPU技術創新、產業應用等問題展開研討與交流。大會現場還發布了2022 SmartNIC & DPU Awards年度評選結果,天翼雲DPU雲核為基礎打造的全新雲端計算體系結構榮獲匠芯技術獎。

 

SmartNIC&DPU技術分會場,天翼雲科技有限公司資深研發專家劉祿仁分享了天翼雲DPU技術的研發與實踐經驗。他表示,天翼雲作為國內領先的雲服務商,基於當前DPU技術演進路線,結合需求的零散化、動態變化以及對DPU產品線上運維問題的考量,以FPGA+CPU的架構作為切入點,成功研發出天翼雲DPU1.0產品,並以自研DPU雲核為基礎打造了為雲而生的全新雲端計算體系結構。

當前 ,摩爾定律的放緩與全球資料量爆發之間的矛盾正在迅速激化。IDC資料顯示,全球資料量在過去10年年均複合增長率接近50%,並進一步預測每四個月對於算力的需求就會翻一倍。與此相對的是,傳統的資料中心架構難以滿足大規模的算力需求,CPU效能每年僅提升3%,形成了明顯的“剪刀差”現象。在CPU無法滿足龐大算力需求的背景下,DPU應運而生。

 

DPU作為計算負載的引擎,直接效果是給CPU“減負”,能夠提高資料中心的運算效率,減少能耗浪費,進而降低成本,在數字時代具有巨大的商業價值與發展潛力。天翼雲DPU1.0實現了虛擬化的零損耗,具備高效能、低延遲、低抖動的特性,網路轉發效能高達4000萬PPS,儲存雲盤IOPS可以達到60W。此外,天翼雲DPU1.0透過將傳統執行在主機側的應用轉到DPU雲核上,減少大量的適配工作,在主機不同算力核和不同架構上可做到即插即用。

此外 ,從產品的研發到落地,天翼雲DPU團隊在網路、儲存及RDMA方面也積累了豐富的實踐經驗。

在網路解除安裝方面 ,針對流表數量大、轉發效能要求高、對SoC和FPGA的記憶體容量需求大、穩定性要求高等挑戰,天翼雲對rte_flow等主要資料結構進行壓縮,並對流表空中計算,最佳化裁剪offload解除安裝路徑的多層級快取,從而支援4M流表,實現了記憶體最佳化;對所有流表進行合併計算,避免在硬體層執行包重注,使轉發效率達到4000萬PPS;基於硬體精確流表特點設計專用老化統計執行緒,減輕OVS Revalidator壓力;初步拆分OVS的統計和老化事務邏輯,最佳化硬體流表的老化統計上報實現邏輯,提升軟體OVS Revalidator執行效率;支援熱升級、熱遷移及熱恢復,做到B/V/C全場景的並池,大幅提升穩定性。

在儲存解除安裝方面 ,針對經常出現的SoC異常重啟、SPDK異常重啟、熱遷移丟IO等現象,天翼雲從中抽象出共同特性,利用軟體協同的思想,將SoC側軟體的正常行為和異常行為進行統一,元件啟動時統一傳送msg資訊給硬體,硬體收到該msg會解析其內容,進而從硬體儲存的queue指標資訊進行分析,在使用者無感狀態下實現全部異常的統一化處理。

在高效能網路方面 ,擁塞演算法是RDMA的核心和關鍵,為提高RDMA網路的效能,天翼雲聚焦下一代高效CC演算法設計,以更好地避免擁塞、保證公平性,實現更快速收斂、更低時延、更簡單部署。針對不同應用場景,天翼雲設計了2套演算法eSurfing-CC: 針對智慧網路卡+商用交換機的組合,提出基於RTT+CNP的2段式端到端CC演算法,具有主動擁塞控制、無需依賴交換機的配置、支援快速啟動快速收斂等優勢;針對智慧網路卡+可程式設計交換機的組網場景,天翼雲在交換機上部署CC演算法,使交換機同樣具備主動擁塞通知能力和主動發包能力,可以有效降低端到端響應時延,同時簡化建模和配置複雜度,提高系統的可擴充套件性。

目前 ,基於天翼雲DPU核心技術打造的多款產品已落地應用,以天翼雲彈性裸金屬伺服器為例,該伺服器兼具雲伺服器彈性和物理機效能,透過將網路、儲存等功能解除安裝至DPU卡,可極大降低物理機側CPU和記憶體等資源消耗,最終算力遠超普通雲主機,現已服務於金融、汽車等多行業企業。

隨著 5G時代資料量和傳輸速度的飛速增長,國內廠商爭相進入DPU賽道。根據Canalys Cloud Channels Analysis預測,到2023年,中國DPU市場規模將達190億人民幣。可以預見,在資料中心流量不斷加大的情況下,DPU幫助資料中心提升算力、降低成本與能耗的同時,將有更大的施展空間和廣闊的發展前景。

 

 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70014251/viewspace-2918865/,如需轉載,請註明出處,否則將追究法律責任。

相關文章