鄔賀銓:開發IPv6潛力服務算網協同發展

網路通訊頻道發表於2022-09-14

2022年9月8日-9日,在廣州南沙經濟技術開發區管理委員會指導下,由全球IPv6論壇(IPv6 Forum)和下一代網際網路國家工程中心共同主辦的2022全球IPv6峰會成功舉辦,本屆峰會以“加速產業生態建設,推進全球IPv6規模部署”為主題,透過線上線下結合的方式面向全球同步直播。

會上,中國工程院院士、推進IPv6規模部署專家委員會主任鄔賀銓著重強調了IPv6在算網協同中的重要應用,他提到,“算力作為新型資訊基礎設施,在雲網邊端實現計算、儲存和網路資源的最佳化配置。IPv6在算網協同中起到直接溝通、互聯和異構連通等關鍵作用,將全面服務算網協同大發展。”

▲中國工程院院士、推進IPv6規模部署專家委員會主任 鄔賀銓

AI加速算力需求

2020年OpenAI釋出AI語言GPT-3模型,引數1750億個,45TB資料,模型大小700G,需要百億億次浮點計算,微軟專門為OpenAI打造的超級計算機擁有28.5萬個CPU核以及1萬個GPU,供OpenAI在上面訓練所有的AI模型,訓練一次的成本大約1300萬美元。

2012~2019年,算力需求6年中擴大了30萬倍,即每3.5個月翻番。

油氣勘探相當於給地表做CT,一個專案的資料100TB~1PB,需巨大的算力支撐。高速列車具有複雜的3D外形和大長細比,很難在風洞中進行1:1模型試驗,可在模擬雲平臺進行數值分析與驗證。

電影《阿麗塔》中主角的每一幀畫面需要分解為千萬個小畫面,例如13萬根髮絲需逐根渲染,800人的團隊,動用3萬臺電腦,整體渲染4.32億小時,費用超1.7億美元。

計算任務型別多樣性

資料分為熱資料和冷資料。熱資料,例如遠端醫療、自動駕駛、工業網際網路等資料,對時效性敏感,適於當地就近處理。

冷資料,例如醫療影像資料需儲存15~30年。歷史資料有價值需儲存但不會頻繁呼叫,適於西部儲存。

大塊連續I/O密集任務需要快速儲存、索引、備份海量異構的Web頁面、使用者訪問日誌及屬性;提供資料融合和互操作性功能的SaaS應用;需要整合生產各環節大量異構資料的企業商務智慧應用,適於採用多執行緒。

小塊隨機CPU密集任務,圓周率精確計算、影片編解碼等,適於採用多程式。

建模需要用到大資料塊,例如油氣勘探資料近PB規模,但實時性要求不高。

推理可以只使用小資料塊,例如機器視覺的少樣本學習、可利用知識圖譜、遷移學習、智監督學習等處理的資料,實時性要求高。

算網融合

2022年5月,全球超算第一名能力為1.1EFlops,中國超算數量佔全球超算500強的34.6%。

鵬城雲腦II現有算力100P,目標1EFlops,商湯智算中心算力將近5EFlops,成都智算中心設計規模達到1FFlops。

按照工信部規劃,到2023年國家樞紐節點算力規模佔比超過70%。

算力網路是一種按業務需求,在雲網邊端間按需分配和靈活排程計算/儲存/網路資源的新型資訊基礎設施。

客戶按路徑遠近、算力容量與使用成本及效能等來選擇雲節點。客戶透過通訊網路向IDC發出計算請求,利用IDC提供的付費或免費的模型演算法、資料和算力,也包括客戶自有模型、演算法和資料。計算結果透過網路返回客戶。

SRv6透過IPv6報頭在資料面快速實現路由的組織及雲資源排程,成為雲網邊端算等的統一承載協議,最佳化網路資源,配置效率可提高60%。

存算分離可採用開放儲存體系和磁帶儲存介質,儲存器可池化,同時支援多伺服器和多雲,高利用率,降成本與能耗。

I/O往復頻繁,不適應實時性高的熱資料,適於冷資料。

存內計算技術以RAM代硬碟,在RAM內完成所有運算,避免I/O瓶頸,實現複雜且成本高,適於對熱資料處理。例如自動駕駛可以在車內同時完成存與算。

資料中心的互聯

虛擬機器遷移、資料中心雲化和平行計算等需要跨資料中心協同;東西部資料樞紐間需要傳送冷資料及計算結果;同一資料中心的主備用系統間也需要資料同步和災備。

資料中心間互聯(DCI)方法:

  • 都會網路範圍,對大客戶可基於傳輸專線提供獨佔頻寬DCI服務,對小客戶在IP都會網路提供共享頻寬的DCI服務,例如MPLS VPN;

  • 對於跨骨幹網的互聯,運營商傳統採用SDH over WDM方式,但容量與靈活性都受限。FlexE over WDM可改進顆粒性。

  • 網際網路企業都選擇租用裸纖上自建WDM系統的方式來滿足100G以上互聯需求,考慮到主要是點到點互聯,因裝置資源無法共享而敏感於成本,同時希望可按需快速部署,開放光互聯應運而生。

控制面和資料面解耦,可引入SDN理念實現光網路管控,達到軟體開放原始碼、介面規範標準、資料模型統一、控制轉發分離和網路能力開放的目的。

資料面的光層與電層解耦,光模組採用伺服器裝置形態,刀片式插拔,以標準介面適配多廠家網路裝置,便利擴容,減少體積與功耗。

算力對通訊網路的要求

彈性,既要大規模組網適應高吞吐量,又要按需計算,例如氣象中心每天需要計算1~2次,每次計算2小時,計算時需要非常大的頻寬。

高效,大計算任務需要使用伺服器叢集,叢集內部存在計算協同,當網路有丟包時,增大了因協同等待而產生的時間開銷等,使算力持續下降。據實驗統計,0.1%的丟包會引起算力損失50%,需要有擁塞通知與避免技術,對於實時性很強的計算在無損前提下還要追求低時延。

感知,需要感知應用需求,為不同的應用提供差異化的SLA保障,還為其中重要的應用提供實時效能的檢測,保證使用者體驗。

安全,資料需要安全輸送到算力節點並安全返回計算結果,提供對算力租戶之間資料的安全隔離、對外部攻擊和資料洩漏防護、終端安全接入等。

經濟,最佳化資源配置,為客戶提供最合適的算力接入和使用環境。

低碳,最佳化排程,降低能耗,使用綠色能源。

算力的排程

很多計算任務具有隨機性,雖然天氣預報需要每天計算,但是每天也只是集中計算幾小時。資料中心的利用率具有潮汐現象,每個資料中心如果按峰值配置,算力利用率顯然不高,如能跨資料中心排程,則可獲得集約化效益,前提是需要實時感知資料中心的能力。

感知資料中心的算力,資料中心的算力發揮與採用晶片型別(CPU或GPU等)和存算架構有關,例如I/O密集任務與CPU密集任務適於採用不同的架構;存算比過低即儲存能力不足也會影響算力的發揮。

感知上層即PaaS和SaaS的能力,配備演算法軟體不同對計算任務的支援能力就不同,不同的AI任務(卷積網路、深度學習、遷移學習等)所需的軟體也不同。例如對於一些Gordon Bell獎的科學工程計算專案,資料中心只有20%的算力可用,計算能力調優是關鍵。

感知資料中心內部與資料中心間光互聯傳輸系統的實時效能,考慮成本、遠近和資料安全等因素。

由於資料中心的業主不同,運營者也不同,算力與網路也很難有統一的作業系統,可利用IPv6地址擴充套件欄位攜帶的能力可以承載各類感知資訊。

IPv6應用感知網(APN6)

傳統IP報頭僅含源和目的地地址,網路無法識別該IP包承載的業務型別和服務等級(SLA)要求。APN6利用IPv6擴充套件報頭嵌入業務要求,以此為依據來組織通道,未來還可利用IPv6擴充套件報頭嵌入所承載的資料屬性,支撐對跨境資料流動的管理。

利用APN,企業敏感資料在本地處理,一般資料上雲處理,在多雲場景下按APN選最合適雲。

同時捕獲多路影片的AR需要邊緣計算與APN來提供與其頻寬、時延、可靠性需求相應的網路服務。

對資料中心而言,希望有反映算力要求的效能標誌,而且僅有EFlops還不足以衡量,最好能反映I/O密集型任務還是CPU密集型任務、大檔案連續資料塊還是小檔案隨機資料塊等。

基於IPv6的隨流檢測(iFIT)

傳統的檢測方式採用傳送檢測報文的間接測試方式,不能保證檢測報文與真實業務路徑一致,丟包檢測精度只能達到10-3。

iFIT(隨流檢測)技術無需外掛探針,將OAM指令攜帶在IPv6擴充套件報頭中。根據染色位元經受的時延、誤碼等來獲得鏈路效能,測量結果嵌入報頭的指定欄位,處理節點根據報頭中的OAM指令資訊,收集資料上報。

可檢測丟包、時延、路徑還原,還可開發對跨境資料流動管理能力。

算力網希望實現任意規模的分鐘級全網鏈路監測,毫秒級虛擬網路拓撲查詢。

iFIT可檢測IP流通道的效能,但對於上雲的應用,IP通道的終點在資料中心伺服器的網路層,資料中心內的計算與儲存效能需要對映到iFIT欄位。

利用SRv6最佳化接入算力節點的路徑

SRv6(分段路由)在IPv6地址擴充套件頭中指定流量轉發路徑,支援低時延、組播、快速倒換和高可靠併發。

  • 根據應用型別可提供專線產品和網路切片。

  • 基於算力節點位置選擇對應的WAN和上雲路徑。

  • 基於資訊保安標識,選擇算力節點,保證內部資料安全。

  • 可按需配防火牆/入侵檢測路徑,為視訊會議配加速器。

透過確定性IP控制抖動和保證可靠性

在IPv6報頭中新增Flow Label欄位,入PE按業務流的QoS要求放行網路可滿足該條件的流。同時透過SRv6向入PE下發路徑,同一個流的前後資料包需要路徑繫結,支援沿途資源預留。

傳送時間劃分為等長的週期T,資料包按週期進行排隊和轉發,最大的抖動控制在2T。

SRv6路徑規劃,雲化引擎獲取網路狀態和報文流的抖動要求並計算路徑,對允許接入的流預留資源,形成面向連線的路徑。

邊緣整形技術,在入PE對一條流的多個報文進行整形,放入合適的門控佇列中。

門控排程技術,多個門控用於確定性IP流,每隔10us輪流開啟一個門控,小量門控對普通IP流永遠開放。

週期對映技術,入PE在T0週期內的報文透過計算轉到P1的T2週期,同時加入的還有來自其他入PE的報文。

雙發選收技術,為提高可靠性在入PE複製流到另一路徑,在出PE擇先選取。

SRv6與傳送承載

MTN(城域傳送網)基於SPN(切片分組網)提供接入網至核心網間多層次多顆粒度的傳送承載。

L1乙太網,FlexE將MAC層速率適配到50/100/200/400GE的L1,提供通道物理隔離及低時延交叉連線。

L2 TDM,FG-SE將MTN鏈路5Gbps幀劃分為480個10Mbps時隙,也可以10GE介面直接連L1。

L3 IP包,支援MPLS-TP或SRv6-TP的IP包分組資料包傳送,實現業務軟隔離。

IPv6在算網協同中的作用

網際網路選擇TCP/IP來遮蔽底層傳輸系統的差異和支援各類IP化的業務,無需控制面信令,實現不同業主的異構網路即插即用。

IPv6透過對地址的開發進一步發揮資料面互通異構網路的作用,避免了控制面的複雜性和時延。

5G的核心網在分離控制面與資料面功能的同時,強化資料面UPF功能並下沉。

SDN需要用到控制面的功能,但主要是路由和切片的計算。

網際網路到現在也沒有采用複雜的網路作業系統。

雲與網的資源異構,而且面臨業主不同難以協調的挑戰,雲與網很難共用統一的作業系統。

如果算網協同的目的是透過網路排程算力資源,則只需在laaS層互聯多雲,即IDC間互聯,透過開發IPv6地址所承載的資料面網路層功能就可實現,從而無需算網作業系統。

面向算力應用的IPv6需定義和承載該業務流對算力規模的需求和效能;顯示資料中心實時可提供的算力、所具有的模型與演算法;監測與呈現資料中心間傳輸鏈路的效能。

客戶的需求與資料中心可供應能力由網路來傳遞,網路也可據此最佳化對通道的選擇。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31545813/viewspace-2914540/,如需轉載,請註明出處,否則將追究法律責任。

相關文章