頻寬利用率提升50%,騰訊雲聯網架構方案解析

騰訊雲+社群發表於2020-12-01

導語 | 企業 A 是一家網際網路公司,當前在雲上計算資源已經接近 10W 核,華東地域專線流量 24G+,資源部署以華東為主、華北、華南、西南等可用區為輔。該企業屬於典型的混合雲架構,本文主要分享企業A如何通過雲聯網架構優化實現頻寬利用率提升50%,希望與大家一同交流。文章作者:李彬文,騰訊雲售後架構師。

 

一、雲聯網背景介紹

 

1. 對等連線概述

 

對等連線(Peering Connection)是一種大頻寬、高質量的雲上資源互通服務,可以幫助打通騰訊雲上的資源通訊鏈路。對等連線具有多區域、多賬戶、多種網路異構互通等特點,支援 VPC 間互通、VPC 和黑石私有網路互通,滿足不同業務的部署需求。

 

 

2. 傳統專線概述

 

混合雲架構前期都是使用傳統的專用通道打通使用者 IDC 與雲上 VPC。如果一根物理專線需要打通多個 VPC,需要通過不同的 VLAN ID 分別建立專用通道來連線多個VPC。

 

 

3. 雲聯網概述

 

雲聯網(Cloud Connect Network,CCN)為使用者提供雲上不同 VPC間、VPC 與本地資料中心間(IDC)內網互聯的服務。具備全網多點互聯、路由自學習、鏈路選優及故障快速收斂等能力。

 

雲聯網覆蓋全球 20+ 地域,支援 100+Gbps 頻寬以及最高可達 99.99% 的可用性,為使用者輕鬆構建極速、穩定、安全、靈活的全球網際網路絡,典型應用場景如下:

 

  • VPC 與 VPC 間高質量內網互聯:線上教育多個地域的實時音視訊系統、遊戲加速多地域內網互聯、多地域容災架構。

  • VPC 與 IDC 間內網全互聯:一個專用通道打通多個 VPC,實現單次接入全網互聯,如混合雲場景。

 

 

雲聯網對比對等連線和傳統專線的優勢如下圖所示:

 

 

下文將從企業 A 的實際出發,介紹企業 A 採用騰訊雲聯網的架構優化實踐。

 

二、企業A架構現狀介紹

 

1. 企業A混合雲背景介紹

 

企業 A 核心業務位於華東地區,在上海有兩個 VPC,一個自建 IDC。在北京、成都、廣州、HK 各有一個 VPC,其中 HK 的 VPC 用於接入海外業務。

 

最終通過對等連線以及傳統專線通道實現所有云上 VPC 與自建 IDC 的互聯互通(由於傳統架構互聯線路較多暫不提供具體拓撲,下文提供了分解拓撲)。

 

2. 公有云VPC通過對等連線互聯架構

 

 

  • 企業 A 上海地域當前是兩個 VPC,一個是業務 VPC,另外一個是用於測試的 VPC,同地域兩個 VPC 之間理論上不限制頻寬,除非底層資料中心的 DCI 互聯頻寬(DCI 互聯頻寬都是上 T 級別)被打滿才會導致同地域對等連線丟包;

  • 企業 A 的少量海外業務通過香港 2 區的 VPC 做接入,再通過 100Mbps 的對等連線實現打通上海 5 區的核心業務 VPC;

  • 企業 A 分佈在華東、華北、華南、西南的業務 VPC 通過對等連線全互連實現業務互訪。

 

3. 公有云VPC與自建IDC通過傳統專線互聯架構

 

名詞解釋:NGW(底層專線閘道器叢集)、QCAR(網路裝置)、QCPL(網路裝置)IDC(資料中心)。

 

  • 企業 A 公有云 VPC 到自建 IDC 每天峰值總流量 24Gbps,正常四條 10G 專線均分流量為:24Gbps*25%=6Gbps;

  • 當前企業 A 的傳統專線架構是專線 1 與 2、專線 3 與 4 相互備份,當專線 1 故障,那麼專線 1 的流量會轉發到專線 2,所以每條專線的頻寬使用率不建議超過 50%;

  • 由於企業 A 業務快速增長,當前每條專線的頻寬使用率已經達到 60%。如果上圖 2 的專線 1 故障,就會有 12Gbps 的流量轉發到專線 2,最終導致專線 2 頻寬擁塞而丟包影響業務。

 

4. 當前互聯架構的挑戰

 

  • 公有云 VPC 之間互通要建立全互連的對等連線,並且每次增加 VPC 都有增加大量對等連線和路由,最終導致維護成本越來越高;

  • 跨地域對等連線的底層閘道器叢集故障無法自動切換路由恢復,止損耗時久;

  • 企業 A 自建 IDC 到騰訊雲的四條專線,如何實現中斷任何一條,另外三條專線可用均分故障鏈路的流量,最終通過最低的成本解決丟包問題;

  • 企業 A 有四個公有云 VPC 需要和自建 IDC 互通,那麼需要四個專線閘道器,以及 16 個 BGP 鄰居和專線通道。後續每增加一個 VPC 就會增加四個專線通道,最終導致專線的運維成本增加。

 

三、雲聯網改造方案介紹

 

1. 公有云VPC通過雲聯網互聯架構設計

 

 

  • 企業 A 所有 VPC 只需要加入新建雲聯網例項,即可實現相互路由自動學習,無需維護大量對等連線和大量手工新增的路由;

  • 所有存量 VPC 以及後續增量 VPC 互通的流量都需要通過雲聯網實現,可以將該雲聯網例項看作企業 A 的虛擬骨幹網;

  • 多 AZ(可用區)閘道器叢集容災,可用性比對等連線更高;

  • 跨地域雲聯網閘道器之間會有撥測,最終選擇最優路徑來降低延遲,提升業務穩定性。

 

2. 公有云VPC與自建IDC通過雲聯網互聯架構設計

 

 

名詞解釋:CCNGW(雲聯網型別專線閘道器)、QCAR(網路裝置)、QCPL(網路裝置)IDC(資料中心)。

 

  • 企業 A 所有 VPC 以及四個專線閘道器都加入同一個雲聯網例項最終實現相互訪問,並且無論幾個 VPC 和自建 IDC 互通只需要 4 個專線通道即可(簡化配置複雜度,簡單可靠);

  • 雲上 VPC 路由下一跳是雲聯網,然後通過 ECMP(負載均衡)四份流量到 4 個雲聯網專線閘道器,最終通道底層路由將流量通過四條物理專線轉發到自建 IDC(邏輯轉發路徑:VPC---CCN---專線閘道器---專線---IDC);

  • 假設企業 A 的物理專線 1 再次中斷,那麼 QCPL1 無法收到自建 IDC 的 BGP 路由。最終通過路由收斂使得雲聯網將流量轉發給雲聯網專線閘道器 2-4,從而實現任意一條物理專線故障都會將流量均分給其他三條專線;

  • 在成本不增加的情況下,通過雲聯網的改造將專線頻寬利用率從理論值 50% 提升到 75% 實現降本增效。

 

四、雲聯網改造總結

 

1. 雲聯網改造帶來的實際收益

 

  • 企業 A 所有云上 VPC 不必兩兩之間建立對等連線,只需要加入雲聯網即可實現全部的互聯互通,降低了雲上 VPC 的運維成本;

  • 企業 A 跨地域 VPC 互通的閘道器叢集實現多 AZ 容災,提升跨地域互通的可用性;

  • 企業 A 的四條專線峰值總流量 24Gbps 情況下中斷任意一條都會通過路由收斂自動恢復業務,不必依賴於被動等待專線修復或者降級其他業務來恢復,最終提升專線的高可用性;

  • 企業 A 雲上 VPC 與 IDC 互通只需要建立 4 個 BGP 鄰居即可,也不必為每個雲上 VPC 建立專線閘道器,最終極大降低專線的運維成本。

 

2. 雲聯網改造注意事項

 

線上業務改造需要很謹慎,建議前期做好深度調研,比如相關業務特徵,頻寬容量評估,當前架構的梳理,當前架構的缺點,新架構是否解決老架構缺點,各個地域的改造難度,是否可以平穩切換到新架構等。

 

雙方一起確認新架構灰度基本步驟,基本原則是:先灰度測試 VPC,然後按 VPC 業務量從小到大的順序進行灰度。

 

未使用過雲聯網的使用者建議先建立測試 VPC 熟悉雲聯網配置方法,具體可參考文末提供的相關文件。

 

真正灰度前拉通騰訊雲網路專家評估新老架構的底層閘道器路徑差異,閘道器叢集的頻寬容量,底層路徑MTU差異,雲聯網限速演算法(截止 2020 年 11 月依然存在均分演算法和分散式演算法兩種,出於頻寬利用率最大化考慮建議分散式演算法)等。

每次灰度遷移都需要有明確的變更步驟、驗證步驟、回退步驟,最終來確保灰度順利完成。

 

每個賬號雲聯網數量限制 5 個,每個雲聯網可以繫結的網路例項(例如 VPC 就是一個網路例項)數量限制 25 個。

 

雲聯網跨地域頻寬限速方式有兩種,一種是地域出口限速(單地域雲聯網總的出口限速),另外一種是地域間限速(地域 A 到地域 B 之間的頻寬限速)。

 

參考文件:

 

[1] 測試 VPC 配置文件:

https://cloud.tencent.com/document/product/877/18752

[2] 對等連線遷移雲聯網配置文件:

https://cloud.tencent.com/document/product/877/18854

[3] 傳統專線閘道器遷移雲聯網專線閘道器配置文件:

https://cloud.tencent.com/document/product/877/31037

[4]:作者專欄文章:

https://cloud.tencent.com/developer/article/1754757

相關文章