當基礎設施故障後,聲網 SD-RTN™ 如何保障 RTE 服務的高可用性

聲網Agora發表於2022-01-17

雲端計算的出現為企業的管理、業務開展、資源整合等帶來了極大的便利性,也是數字化建設的核心基建之一,然而區域性當機或者大面積當機事件對於雲廠商來說卻也無法避免,全球領先的計算平臺也不例外。例如,美國東部時間12月7日上午10點45分,亞馬遜 AWS 遭遇當機,導致了迪斯尼+、奈飛等一些網站的線上服務受到影響,此次故障也在業內引發了較大的關注。

之所以說雲廠商的當機故障無法 100% 避免,核心在於造成的原因有很多種,例如人為失誤、網路中斷或者區域性網路擁塞、停電、自然災害等,作為雲廠商,能做的就是不斷優化技術與服務來應對這些問題,將當機發生的概率降到最低。

聲網作為全球領先的實時互動雲服務商,在海外的部分業務也使用了 AWS 的基礎設施資源,在 AWS 當機事件中,聲網的實時音視訊服務並沒有受到波及,背後的核心原因在於聲網 SD-RTN™ 大網的獨特架構設計保障了 RTE(實時互動) 服務的高可用性,做到機房、硬體、網路等基礎設施出現故障的情況下,仍然可以給使用者提供高可用的 RTE 服務。

首先我們要了解什麼是高可用性。一般來講,一個靠譜的雲服務一定是可用性非常高的,可用性的評判標準 SLA:服務等級協議(Service Level Agreement)對於雲廠商來說就是服務可用性的一個保證,國內很多雲廠商在售賣雲服務時都會承諾 99.9% 的可用性,9 越多代表全年服務可用時間越長服務更可靠,反之亦然。例如以全年 365 天做計算,99.9% 的可用性,每年只有 8.76 小時的服務是不可用的,可用性的每一次提升都是一次技術的挑戰,當遇上環境災害、公網基礎設施不可靠等問題時,怎麼樣快速地面對這些問題,多長時間恢復,是否有成熟的備案這是任何一個雲廠商都要誠實面對的問題。

想要提升服務的可用性,需要從多個層面進行佈局,例如機房佈置、服務基礎架構、運維自動化等,那麼聲網具體是如何在實踐中保障RTE服務的高可用性,我們可以從四個層面展開來講:

01 SD-RTN™架構設計:故障實時感知與智慧排程、異地多活

  • 業務架構: 眾所周知,基礎設施會因為突發的網路擁塞、硬體故障、不可抗力等因素導致或大或小的一段時間的不可用。在這樣的前提下,聲網 SD-RTN™ 大網的架構師團隊從設計之初就充分考慮到了基礎設施的不穩定因素。如果要用幾個關鍵詞來描述 SD-RTN™,那就是全球覆蓋、故障實時感知與智慧排程、超低延時、彈效能力、異地多活、超高併發,而一旦基礎設施出現故障,SD-RTN™ 的故障實時感知與智慧排程能力以及異地多活的構建方式將發揮重要作用,保障服務的高可用。

故障實時感知與智慧排程:從全球來看,公網網路的波動是較為頻繁的,SD-RTN™ 的網路嗅探服務能夠實時的感知網路的質量,結合 AI Ops(智慧運維)的分析能力,能夠實現分鐘級的使用者遷移,保障使用者的音視訊體驗。

異地多活:SD-RTN™ 大網將全球資源劃分為多個 Region(區域),在 Region 內依然能夠做到最低 N+3(即:在最大的 3 個資源叢集不可用的情況下,剩餘的資源依然能夠承接當前 Region 的負載)資源冗餘的要求,不僅如此,Region 之間依然能夠形成互補的態勢,某個 Region 故障時,可以通過互補 Region 進行承接。

靈活的擴彈性縮容能力:SD-RTN™ 大網的每個 Region 至少具備 200% 的實時彈性擴縮容能力,具備應對突發事件的能力,配合智慧排程能夠充分合理的進行資源使用。

  • SDK:同時,在音視訊 SDK 側聲網也進行了大量的優化工作,包括抗弱網優化,音視訊體驗優化等,形成和業務層進行"裡應外合"的局面,提升服務的可用性。

在這裡插入圖片描述

02 基礎設施層面:機房全球分佈、五地三中心資源覆蓋

  • 基礎資源選點: SD-RTN™ 在全球部署了 250 + 資料中心,覆蓋全球 200 多個國家與地區,對於主要區域的最低要求是五地三中心的資源覆蓋,每個區域採用核心節點 + POP 點的方式。這樣一旦某區域其中一個或兩個機房發生故障,依靠技術可以將故障城市的流量全部切換到執行正常的機房。
  • 供應鏈管理:不依賴單家供應商的基礎資源(包括:機房、硬體、網路等),當一家供應商出現問題,可以快速切換到其他服務正常的供應商。

在這裡插入圖片描述

03 智慧運維,快速阻斷故障

如今行業都有一個共識,即運維複雜度在迅速增加,然而傳統運維已經捉襟見肘,為此, 聲網投入了巨大的資源和人力,克服了 AI 工程化落地的難點,將智慧運維全面應用於 SD-RTN™ 的日常運維中,解決了傳統運維的痛點:7*24H 不間斷保障;高一致性和高質量的執行結果;統一高效的運維效率。

聲網的 AI Ops(智慧運維)能在 1 min之內(包含了資料聚合、上報、判斷、執行、恢復等整體端到端時間)識別機房異常並且自動運維,快速阻斷故障影響蔓延, 保障邊緣服務高可用。例如,邊緣節點的網路擁塞是無法避免的, 在出現擁塞之後, 使用者的音視訊體驗會打折(卡頓, 延時增大),這種情況下經驗豐富的運維人員在 daytime 時期從故障發現到處理平均要花費20分鐘, 如果故障發生在深夜或者處理不及時, 時間會更長, 這對使用者的體驗影響很大. 這時候 AI OPS的價值就體現出來了, 它能在 1 min之內識別並處理異常, 並且7*24不間斷高一致性地執行, 以保障使用者高質量的 RTC 體驗。

04 RTE 行業首個體驗質量標準-XLA

前面我們提到,SLA 是很多雲廠商與電信行業對服務可用性的評判標準,但在聲網看來,SLA 對裝置和網路接入標準進行規範,關注的是服務的可用性。但是在 RTE 行業,僅僅達到“可用”標準遠遠不夠,使用者渴望的是清晰流暢、沒有卡頓的音視訊互動,那麼在實時互動體驗質量上就必須達到“好用”的標準。對此,聲網在 2020 年 7 月設計定義並推出了實時互動行業首個體驗質量標準-XLA(Experience Level Agreement),這也是為 RTE 服務的可用性與體驗質量推出的首個可量化、可查證、可賠付的體驗質量標準。

與 SLA 不同的是,XLA 不僅關心實時互動的可用性和服務質量,還關注使用者的體驗質量,同時這也是第一個將質量保證焦點由裝置轉移到人的標準。XLA 主要包含四項體驗指標,即 5s 登陸成功率、600ms 視訊卡頓率、200ms 音訊卡頓率和 400ms 網路延時達標率,四個指標的月度達標率(1-不達標切片總時長/月度總時長)均需超過 99.5%。5s 登入成功率是指登入成功耗時需小於 5s 才算合格,這項指標主要考驗實時互動的可用性與等待體驗;600ms 視訊卡頓率與 200ms 音訊卡頓率主要考驗實時互動過程中流暢性體驗;400ms 的網路延時指標面向音視訊互動的實時性,延時需低於 400ms。

在這裡插入圖片描述

通過 XLA,客戶可以獲得聲網對登陸成功率、端到端延時、音視訊卡頓率等多個維度的實時互動體驗質量承諾和保證,不需要再去擔心終端使用者的體驗質量問題,真正做到用的放心,用的稱心!

定義實時互動體驗質量標準看似只是幾個指標,但實際背後承載了聲網團隊長期的付出。XLA 質量標準的推出,是經過上百名技術專家針對全鏈路資料反覆打磨、改進、驗證,經歷了 10 個版本的反覆迭代,適配了 50+ 網路模型、200+ 國家與地區的優化、6000+ 不同型別終端體驗的優化以及全鏈路 1萬億 分鐘的資料打磨。這背後代表的也是聲網在實時互動雲行業的長期深耕與積累。

相關文章